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内 容 简 介 


数据 仓库 与 数据 挖掘 都 是 从 数据 资源 提取 信息 和 知识 进行 辅助 决策 。 由 于 数据 资源 丰富 ,数据 仓库 
与 数据 挖掘 辅助 决策 效果 十 分 显著 。 

本 书 系统 介绍 数据 仓库 原理 、 联 机 分 析 处 理 、 数 据 仓库 设计 与 开发 .数据 仓库 的 决策 支持 应 用 ,数据 挖 
掘 原理 、 信 息 论 的 决策 树 方法 、 集 合 论 的 粗糙 集 方法 .关联 规则 、 公 式 发 现 \ 神 经 网 络 .遗传 算法 、 文 本 挖掘 
与 Web 挖掘 ,以 及 数据 仓库 与 数据 挖掘 的 发 展 。 

本 书 对 数据 仓库 的 系统 介绍 ,在 于 突出 决策 支持 的 本 质 。 对 数据 挖掘 的 各 类 方法 均 介 绍 了 它们 的 理 
论 基础 和 实现 方法 ,并 通过 例子 进行 了 说 明 。 

本 书 的 特点 是 从 数据 仓库 和 数据 挖掘 的 兴起 与 演变 来 说 明 它 们 的 本 质 ,通过 实例 来 解释 它们 的 原理 ， 
这 样 便于 读者 学 习 和 掌握 , 适 于 本 科 生 和 研究 生 使 用 。 
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出 版 说 明 


20 世纪 三 四 十 年 代 , 一 直 摸 索 着 前 进 的 计算 技术 与 刚 走 向 成 熟 的 电子 技术 结缘 。 这 一 
结合 ,不 仅 孕 育 了 新 一 代 计算 工具 一 一 电子 计算 机 ,还 产生 了 当时 谁 也 没有 料 到 的 巨大 效 
应 ; 电子 计算 机 一 一 这 种 当初 为 计算 而 开发 出 来 的 工具 ,很 快 就 超出 计算 的 范畴 ,成 为 “ 信 
息 处 理 机 ”的 代名词 ;人 类 开始 能 够 高 效率 地 开发 并 利用 信息 ;信息 对 人 类 社会 的 作用 得 以 
有 效 地 发 挥 ,并 逐步 超过 材料 和 能 源 , 成 为 人 类 社会 的 重要 支柱 ;信息 产业 急剧 增长 ,信息 经 
济 高 度 发 展 ,社会 生产 力 达 到 了 新 的 高 度 ; 人 们 的 信息 化 意识 不 断 加 强 , 人 类 在 信息 资源 方 
面 更 加 激烈 地 竞争 ,社会 发 展 走 上 信息 化 轨道 。 

文化 是 时 代 的 精髓 ,是 特定 的 人 群 在 一 定 的 历史 时 期 一 定 的 地 域 范围 对 其 生产 和 生活 
模式 .思维 和 行为 方式 的 觉悟 和 理性 化 , 它 伴 随 着 人 类 创造 和 使 用 工具 能 力 的 提高 而 不 断 发 
展 。 文 者 ,经 天 纬 地 也 ;化 者 ,变化 改变 ,造化 .习俗 .风气 也 。 也 可 以 说 ,文化 作为 社会 的 人 
们 在 生产 和 生活 中 思维 和 行为 方式 的 理性 化 ,是 文治 和 教化 的 结果 。 因 此 ,文化 具有 区 域 
性 、 群 体 性 和 时 代 性 。 在 信息 时 代 的 帷幕 刚刚 拉 开 ,新 时 代 的 气息 开始 弥漫 社会 各 个 角落 的 
20 世纪 70 年 代 ,先觉 们 就 已 开始 创办 以 加 速 信息 化 的 进程 为 宗旨 、 以 培养 信息 资源 开发 人 
才 为 目标 的 信息 管理 与 信息 系统 专业 。 

从 与 信息 有 关 的 学 科 纵向 来 看 ,信息 管理 与 信息 系统 专业 处 于 信息 学 、 信 息 技术 、 信 息 
管理 ,信息 经 济 、 信 息 社会 学 这 个 层次 结构 的 中 间 , 它 下 以 信息 学 和 信息 技术 为 基础 ,上 与 信 
息 经 济 和 信息 社会 学 相 联系 。 从 其 涉及 的 学 科 横向 来 看 , 它 处 在 管理 学 .信息 科学 与 技术 和 
有 关 专 业 领 域 的 交叉 点 上 。 它 对 技术 有 极 高 的 要 求 , 又 要 求 对 组 织 有 深刻 的 理解 ,对 行为 有 
合理 的 组 织 , 反 映 了 科学 与 人 文 融合 的 特点 。 这 种 交叉 与 融合 正 是 信息 管理 与 信息 系统 专 
业 最 重要 的 特征 ,是 其 他 的 学 科 或 专业 难以 取代 和 涵盖 的 。 

我 国 的 信息 管理 与 信息 系统 专业 创建 于 20 世纪 70 年 代 末 。 在 近 20 年 的 时 间 里 ,已 发 
展 到 151 个 点 ,成 为 培养 信息 化 人 才 的 重要 领域 。 其 发 展 速度 之 快 、 影 响 之 深远 已 令 世 人 和 
学 术 界 刮目相看 。 然 而 作为 一 个 新 的 、 特 别 是 与 各 行 各 业 关 系 极为 密切 的 专业 ,其 课程 体 
系 、 教 学 内 容 以 及 教学 方法 .手段 ,都 要 经 历 一 个 逐步 完善 .逐步 成 熟 的 过 程 , 其 教材 体系 的 
建设 更 需要 较 长 期 的 实践 和 探索 。 没 有 这 样 一 个 过 程 ,具有 专业 特点 、 符 合 中 国 实际 的 教材 
体系 是 不 会 建立 的 。 近 20 年 来 ,大 家 一 直 在 课程 体系 的 完善 和 建设 有 自己 专业 特点 的 教材 
方面 不 断 进行 探讨 。1991 年 ,全 国 10 所 财经 类 院 校 的 经 济 信息 管理 专业 的 负责 人 在 太原 
召开 第 一 次 研讨 会 。 以 后 ,1993 年 在 大 连 、1995 年 在 武汉 、1997 年 在 烟台 ,又 有 更 多 的 院 校 
参加 到 了 这 一 研讨 之 中 。 这 些 研讨 活动 得 到 了 国家 教委 有 关 部 门 的 赞许 和 支持 。 通 过 研 
讨 , 大 家 在 建设 具有 专业 特点 的 教材 体系 、 改 变 简单 照搬 其 他 专业 教材 上 取得 了 共识 。 在 武 
汉 会 议 之 后 , 即 着 手 进行 系列 教材 的 编写 工作 。 经 协商 ,由 张 基 温 教授 担任 主编 ,由 魏 晴 宇 
教授 、 陈 禹 教授 担任 顾问 。 

这 套 教材 是 我 国信 息 管 理 与 信息 系统 专业 的 第 一 套 教 材 。 尽 管 编写 者 为 它 付出 了 巨大 
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的 辛劳 ,但 在 实践 中 我 们 也 深 深 地 感到 了 时 代 的 蒜 策 和 工作 的 难度 。 一 方面 ,席卷 全 球 的 信 
息 化 大 潮 已 经 使 信息 、 信 息 管理 ,信息 系统 成 为 全 社会 关注 的 热点 ,人 们 对 其 期 望 和 要 求 越 
来 越 高 ; 另 一 方面 ,在 世纪 之 交 的 今天 ,作为 现代 社会 先导 技术 的 信息 技术 和 相关 学 科 的 更 
新 速度 在 不 断 加 快 ,多 种 社会 因素 相互 渗透 、 相 互 影 响 ,新 情况 .新 问题 给 专业 的 建设 带 来 很 
多 的 困难 。 当 然 ,这 些 对 我 们 专业 的 发 展 和 建设 也 是 一 种 动力 和 机 遇 。 为 此 ,在 这 套 教 材 问 
世 之 际 , 我 们 再 一 次 表示 一 个 心愿 :希望 与 全 国 的 同行 共勉 ,在 教材 和 专业 建设 上 齐心 协力 ， 
做 出 更 大 贡献 。 也 由 于 如 上 种 种 原因 ,这 套 教材 不 会 是 完整 的 ,也 不 会 是 完美 的 ,一 定 存 在 
这 样 那样 的 不 足 或 错误 ,我 们 将 会 不 断 补充 ,不 断 修改 ,不 断 完善 。 任 何 建设 性 意见 都 是 我 
们 非常 期 盼 的。 为 此 ,这 一 套 教材 将 具有 充分 的 开放 性 : 每 一 本 教材 都 是 一 个 原型 ,每 一 条 
建设 性 意见 都 将 会 被 采纳 ,并 享有 自己 的 知识 产权 。 


全 国 高 等 院 校 计算 机 基础 教育 研究 会 
财经 信息 管理 专业 委员 会 
信息 管理 与 信息 系统 专业 系列 教材 编 委 会 


数据 仓库 (data warehouse,DW) 是 利用 数据 资源 提供 决策 支持 。 它 比 利 用 模型 资源 辅 
助 决策 更 有 效 ,而 且 辅 助 决 策 的 范围 更 宽 。 由 于 在 现实 中 ,数据 大 量 存 在 ,而 且 在 迅速 地 增 
长 ,只 要 将 面向 应 用 (事务 驱动 ) 的 数据 库 重 新 组 织 转变 为 面向 决策 分 析 的 数据 仓库 ,就 可 以 
帮助 决策 者 从 不 同 的 视角 ,通过 综合 数据 分 析 掌 握 现 状 ;: 通 过 多 维 数据 分 析 发 现 各 种 存在 的 
问题 ;通过 对 数据 层次 的 钻 取 找 出 问题 产生 的 原因 ;通过 历史 数据 预测 未 来 。 由 于 数据 仓库 
辅助 决策 效果 明显 ,数据 仓库 已 经 从 20 世纪 90 年 代 中 期 兴起 ,经 过 几 年 的 发 展 ,迅速 形成 
了 潮流 。 

数据 挖掘 (data mining, DM) 是 从 数据 中 挖掘 出 信息 和 知识 ,是 从 人 工 智 能 的 机 器 学 习 
(machine learning, ML) 中 发 展 起 来 的 。 机 器 学 习 是 让 计算 机 模拟 人 的 学 习 方 法 获取 知识 。 
机 器 学 习 中 的 大 量 学 习 方 法 已 经 引入 到 数据 挖掘 中 。 数 据 挖 掘 也 是 20 世纪 90 年 代 中 期 兴 
起 的 。 正 是 由 于 数据 挖掘 具有 获取 知识 的 能 力 ,目前 各 数据 仓库 均 将 数据 挖掘 作为 数据 仓 
库 的 前 端 分 析 工 具 , 用 于 提高 数据 仓库 的 决策 支持 能 力 。 

数据 仓库 数据 挖掘 和 联机 分 析 处 理 (on line analytical processing,OLAP) 结 合 起 来 的 
新 决策 支持 系统 是 以 数据 驱动 的 决策 支持 系统 。 而 传统 决策 支持 系统 (decision support 
system,DSS) 是 以 模型 和 知识 驱动 的 决策 支持 系统 ,是 由 模型 库 系 统 、. 知 识 库 系统 .数据 库 
系统 和 人 机 交互 系统 组 成 的 。 新 决策 支持 系统 利用 的 是 数据 资源 ,而 传统 决策 支持 系统 利 
用 的 是 模型 资源 和 知识 资源 ,它们 两 者 辅助 决策 的 方式 和 效果 均 不 相同 。 新 决策 支持 系统 
并 不 能 代替 传统 决策 支持 系统 ,它们 是 相互 补充 的 。 新 决策 支持 系统 与 传统 决策 支持 系统 
结合 起 来 形成 的 综合 决策 支持 系统 将 是 决策 支持 系统 发 展 的 新 方向 。 

数据 仓库 .数据 挖掘 ,联机 分 析 处 理 等 结合 起 来 也 称 为 商业 智能 (business intelligence， 
BI) 。 商 业 智 能 是 一 种 新 的 智能 技术 ,区 别 于 人 工 智能 (artificial intelligence,AI) 和 计算 智 
能 (computational intelligence,CI)。 人 工 智能 采用 的 技术 是 符号 推理 ,符号 推理 过 程 形成 
了 概念 的 推理 链 。 计 算 智能 采用 的 技术 是 计算 推理 ,模拟 人 和 生物 的 模糊 推理 、 神 经 网 络 计 
算 和 遗传 进化 过 程 。 商 业 智 能 是 从 数据 仓库 和 数据 挖掘 中 获取 信息 和 知识 ,对 变化 的 商业 
环境 提供 决策 支持 。 商 业 智能 是 目前 企业 界 正在 大 力 推广 的 知识 管理 (knowledge manage- 
ment, KM) 的 基础 。 

作者 于 1997 年 6 月 30 日 在 (计算 机 世界 》 报 上 发 表 了 一 组 关于 数据 开采 (数据 挖掘 ) 的 
文章 ,最 早 向 国内 学 者 介绍 了 数据 挖掘 概念 和 技术 。 作 者 又 于 1998 年 6 月 15 日 在 (计算 机 
世界 》 报 上 发 表 了 一 组 关于 数据 仓库 与 决策 支持 系统 的 文章 ,在 介绍 基于 数据 仓库 的 决策 支 
持 系统 上 ,提出 了 将 基于 数据 仓库 的 决策 支持 系统 和 传统 决策 支持 系统 结合 的 综合 决策 支 
持 系统 ,在 国内 产生 了 一 定 的 影响 。 

本 书 的 特点 是 从 数据 仓库 和 数据 挖掘 的 兴起 与 演变 来 说 明 它 们 的 本 质 ,通过 例子 来 解 
释 它 们 的 原理 , 既 系 统 地 介绍 了 数据 仓库 和 数据 挖掘 的 概念 和 技术 ,又 介绍 了 它们 之 间 的 关 

*。 了 上 由， 


系 ,以 及 今后 的 发 展 。 

在 数据 仓库 的 章节 中 ,重点 介绍 数据 仓库 原理 、 联 机 分 析 处 理 、 数 据 仓库 设计 与 开发 , 数 
据 仓库 的 决策 支持 应 用 。 在 数据 挖掘 的 章节 中 重点 介绍 信息 论 方法 、 集 合 论 方法 .公式 发 
现 、 神 经 网 络 和 遗传 算法 ,这些 数据 挖掘 方法 在 现实 中 应 用 较 广 泛 。 由 于 数据 挖掘 的 基础 理 
论 涉及 面 较 宽 ,建议 在 本 科 生 教学 中 对 信息 论 原理 和 集合 论 方法 只 讲 定义 和 例子 ,对 神经 网 
络 和 遗传 算法 只 讲 公 式 和 应 用 ,省 略 原理 的 深层 内 容 和 公式 的 推导 。 这 些 省 略 的 内 容 适 合 
研究 生 教学 。 

由 于 作者 从 事 数据 仓库 与 数据 挖掘 工作 多 年 ,并 得 到 过 国家 自然 科学 基金 项 目的 资助 。 
在 书 中 还 介绍 了 作者 领导 的 课题 组 完成 的 IBLE 决策 规则 树 方法 .FDD 公式 发 现 系统 .遗传 
分 类 学 习 系统 GCLS 等 。 本 书 也 包含 了 作者 提出 的 综合 决策 支持 系统 概念 和 可 拓 数 据 挖 
掘 概念 及 理论 ,这 些 内容 适 合 研究 生 学 习 和 参考 。 

欢迎 和 广大 读者 进行 交流 ,共同 为 促进 我 国 数据 仓库 和 数据 挖掘 的 发 展 而 努力 。 

参加 本 书 录入 的 有 毕 季 明 、 雇 建文 . 赵 健 、 徐 怡 峰 、 田 吴 等 同志 ,在 此 表示 感谢 ! 


陈 文 伟 


第 1 章 数据 仓库 与 数据 控 扎 概述 …………… 


1,1 


1.2 


本: 


习题 


由 


Ad 
%l 


.1.2 从 OLTP 到 OLAP ee 
.1.3 数据 字典 与 元 数据 ……… : 
了 从 机 器 学 习 到 数据 挖掘 … 

.2.2 数据 挖 所 的 含义 ……………… 
.2.3 数据 挖掘 与 OLAP 的 比较 ， 
2.4 i i 

i 数据 仓库 和 数据 挖掘 的 区 别 与 联系 …。 


[和 


:» 9 


2.1 


2.2 


2.3 


2.1.1 数据 仓库 结构 . TT 
2.1.2 数据 集 市 及 其 结构 …… 
2.1.3 数据 仓库 系统 结构 …… 
2.1.4 数据 仓库 的 运行 结构 …… 

2.2.2 雪花 模型 … 
Rg 7 
2.3.1 数据 抽取 27 
2.3.2 ”数据 转换 28 


2.4 


2.4.1 元 数据 的 重要 性 …… 
2.4.2 关于 数据 源 的 元 数据 
2.4.3 关于 数据 模型 的 元 数据 ………… 


36 


ER 


EE 地， 


3,2 


3.3 


3.4 


3.5 


习题 


OLAP 概念 和 
3.1.1 OLAP 的 定义 … 
1.3 OLAP 的 基 术 要 态 ioni ois 
3.2.2 ”ROLAP 数据 模型 ……………: 
3.2.3 MOLAP 与 ROLAP 的 比较 … 
3.2.4 HOLAP 数据 模型 ………………… 
多 维 数据 的 显示 … i 
3.3.1 多 维 数据 的 显示 方法 ， 
OLAP 的 多 维 数据 分 析 pp 

3.4.1 多 维 数据 分 析 的 基本 操作 
3.4.2 广义 OLAP 功 能 .PP 

OLAP 结构 与 分 析 工 具 
3.5.1 OLAP 结构 58 
3.5.2 OLAP 的 Web 结构 和 RN 59 
3.5.3 OLAP 工具 及 评价 … “61 
63 


4.1 


数据 仓库 分 析 与 设计 eeennene ee 65 
4.1.2 ”概念 模型 设计 67 
4.1.3 ”逻辑 模型 设计 dna 
.3 Ee 


5 禾 据 从 联 的 过 本 拷 坟 owe 
4.2.1 数据 仓库 开发 过 程 …… 

4.2.2 数据 质量 与 数据 清洗 … 

Ws 

4 守 和 所 耸 闫 开发 的 困难 0 2 


5.2 二 决策 支持 系统 . 0 
5.2.1 查询 与 报表 … 104 

5.2.2 多 维 分 析 与 原因 分 析 … 105 

5.2.3 预测 未 来 ………P .» 106 

5 
5. 


5. 3 数据 仓库 应 用 实例 ， Ee 109 
5.3.1 航空 公司 数据 仓库 决策 支持 系统 简 例 … 109 
5.3.2 统计 业 数据 仓库 系统 … … 114 
5.3.3 沃尔玛 数据 仓库 系统 … 116 


6.1 知识 发 现 过 程 ， 0 

1.1 知识 发 现 过 程 定义 ………… ce 人 

数据 挖掘 对 象 … … 121 
数据 挖掘 任务 … sn 
6.2 ”数据 挖掘 方法 和 技术 . | 
6.2.1 归纳 学 习 的 信息 论 方法 …- … 131 
6 居 靖 尝 台 的 华 合 论 序 入 计 ei nn jal 
.WW. 


mmo 
商人 


1 
1 
让 
1 
vl 


6.3 


习题 


6. 2.4 
6. 2.5 
6.2.6 


六 的 向 训 才 二 
I 
| 1 EE 
的 


3.1 
3.2 
3.3 
3.4 
3.5 
3.6 


FPPPPP 


仿生 物 技术 的 遗传 算法 
数值 数据 的 公式 发 现 … 
可 视 化 技术 … 


神经 网 络 的 权 值 … 
公式 知识 ……… 
二 二 


第 7 章 


7.1 


7.2 


Ts 


第 8 章 集合 论 方法 
粗糙 集 方 法 eeoooooeeesoooooooooeooesoooosooooeoosoooooooooooooooooooeooooooooooooooeoosoosoee 
粗糙 集 概念 
属性 约 简 的 粗 米 集 理论 
属性 约 简 的 粗粮 集 方法 … eee 
粗糙 集 方法 的 规则 获取 …: 可 
粗糙 集 方法 的 应 用 实例 :pp 


8 


信息 论 
a is | 
区 下 有 
A 
二 本 


as 


信息 粹 和 条 件 炳 … 
互信 息 与 信息 增益 … 


决策 树 方法 ， 


7 
7.2.2 
7.2.3 
7.2.4 
7.2.5 


7 
的 是 未 属 是 二 本 站 
BL 为 法 站 出 交 emi 电 oe 
习题 


yi! 
7.3.2 
V3 


Sul,l 
SL 
多 下 号 
8.1.4 
8 


决策 树 概念 … 


i 六 塘 潜 弟 本 寻 直 resiseesii ni 交 2 


C4.5 方 法 


信道 容量 与 译 码 准则 … 和 


相 汪 6 5 180 
8.2.3 Apriori 算法 程序 ee 183 
8. 2.4 ”基于 FP- 树 的 关联 规则 挖掘 算法 …………… e184 


第 9 章 Be 
9.1.1 曲线 拟 合 与 公式 发 现 … 
9.1.2 启发 式 与 数据 驱动 启发 式 
9.2 ”科学 定律 重新 发 现 系 统 …………… 
9.2.2 BACON 系统 实例 pp 
9.2.3 BACON 系统 的 进展 … 
9.3 经 验 人 \ 式 发 现 系统 . OT 


10.1 神经 网 络 概念 及 几何 意义 
0.1.2 神经 网 络 的 几何 意义 ……… 
0.1.3 超 曲面 神经 网 络 概念 
10.2 感知 机 … EE 
0.2.1 感知 机 模型 
0.2.2 感知 机 实例 
0.2.3 感知 机 讨论 
10.3 反 向 传播 模型 … 
0.3.2 BP i | 


10.4.3 遗传 算法 简 例 二 
10.4.4 遗传 算法 的 特点 … a 
基于 遗传 算法 的 分 类 学 习 系 统 … ee 
10.5.1 概述 … i Ba Pp 
1026.2 遗传 分类 学 习 系 统 GCLS 的 基本 原理 

10. 5.3 遗传 分 类 学 习 系 统 GCLS 的 应 用 ………… 


第 11 章 文本 挖掘 与 Web 挖 握 pp 245 


11.1 


11.3 


习题 


11.1.1 文本 挖掘 的 基本 概念 …… e245 
11.1.2 文本 特征 的 表示 ………… 
11.1.3 文本 特征 的 提取 … 

11.2.3 文本 聚 类 We a 
11.3.1 Web 挖掘 概述 …………… 
11.3.2 Web 内 容 控 掘 …………… 
11.3.3 Web 结构 挖掘 ………… 
i Web 应 用 挖掘 158 


12.1 


12,.2 


综合 决策 支持 系统 … a 162 
2.1.1 从 管理 科学 到 决策 支持 系统 … eee er 
2.1.2 基于 数据 仓库 的 决策 支持 系统 与 传统 决策 支持 系统 的 结合 ……… 265 
2.1.3 综合 决策 支持 系统 发 展 趋势 … ee es 

可 拓 数 据 挖掘 … ee RE 
2.2.1 可 拓 学 基本 原理 :eee 
2.2.2 从 数据 挖掘 到 可 拓 数 据 挖掘 … 
2.2.3 可 拓 数 据 挖掘 理论 ……………… a 
2.2.4 ”可 拓 数 据 挖掘 实例 …………… 2 


第 1 章 逆 汉 折 库 与 数据 泥 授 潍 六 


1.1 数据 仓库 的 兴 


1.1.1 从 数据 库 到 数据 仓库 


由 数据 库 (DB) 发 展 到 数据 仓库 (DW) 主 要 在 于 如 下 几 点 。 

。 数据 太 多 ,信息 贫乏 (data rich, information poor) : 随 着 数据 库 技术 的 发 展 , 企 事 业 
单位 建立 了 大 量 的 数据 库 ,数据 越 来 越 多 ,而 辅助 决策 信息 却 很 贫乏 ,如 何 将 大 量 的 
数据 转化 为 辅助 决策 信息 成 了 研究 的 热点 。 

。 异 构 环 境 数据 的 转换 和 共享 : 由 于 各 类 数据 库 产品 的 增加 , 异 构 环 境 的 数据 也 随 之 
增加 ,如 何 实现 这 些 异 构 环 境 数 据 的 转换 和 共享 也 成 了 研究 的 热点 。 

。 利用 数据 进行 事务 处 理 转变 为 利用 数据 支持 决策 : 数据 库 用 于 事务 处 理 , 若 要 达到 
辅助 决策 , 则 需要 更 多 的 数据 。 例 如 ,如 何 利用 历史 数据 的 分 析 来 进行 预测 。 对 大 
量 数 据 的 综合 得 到 宏观 信息 等 均 需要 大 量 的 数据 。 

数据 仓库 概念 提出 后 ,在 不 到 几 年 的 时 间 内 就 得 到 了 迅速 的 发 展 。 数 据 仓 库 产 品 也 不 

断 出 现 并 陆续 进入 市 场 。 


1. 数据 库 用 于 事务 处 理 


数据 库存 储 大 量 的 共享 数据 ,作为 数据 资源 用 于 管理 业务 中 的 事务 处 理 , 已 经 成 为 了 成 
熟 的 信息 基础 设施 。 

数据 库 中 存放 的 数据 基本 上 是 保存 当前 数据 , 随 着 业务 的 变化 随时 更 新 数据 库 中 的 数 
据 。 例 如 ,学 生 数 据 库 , 随 着 新 生 的 入 校 , 数 据 库 中 要 增加 新 学 员 的 数据 记录 ; 随 着 毕业 学 生 
的 离 校 ,数据库 中 要 删除 这 些 学 员 的 数据 记录 。 数 据 库 总 是 保持 当前 的 数据 记录 。 

不 同 的 管理 业务 需要 建立 不 同 的 数据 库 。 例 如 ,银行 中 储蓄 业务 要 建立 储蓄 数据 库 , 记 
录 所 有 储蓄 用 户 的 存款 及 使 用 信息 ;信用 卡 业 务 要 建立 信用 卡 数据 库 , 记 录 所 有 用 户 信用 卡 
的 存款 及 使 用 信息 ;贷款 业务 要 建立 贷款 数据 库 , 记 录 贷 款 用 户 的 贷款 及 使 用 信息 。 

数据 库 是 为 事务 处 理 需 求 设计 和 建立 的 ,从 而 使 计算 机 在 事务 处 理 上 发 挥 极 大 的 效果 。 
但 是 ,数据 库 在 帮助 人 们 进行 决策 分 析 时 就 显得 不 适应 了 。 例 如 ,银行 想 了 解 用 户 的 经 济 状 
态 (收入 与 支出 情况 ) 以 及 信誉 如 何 (是 否 超 支 ,还 贷 情况 等 )? 是 否 继续 贷款 给 他 ? 单 靠 一 
个 数据 库 是 无 法 完成 这 种 决策 分 析 的 。 必 须 将 储蓄 数据 库 、 信 用 卡 数据 库 、 贷 款 数据 库 集中 
起 来 ,对 某 一 个 人 进行 全 面 分 析 , 才 能 准确 了 解 他 的 存款 及 收 支 情况 、 信 用 卡 使 用 情况 以 及 
贷款 和 还 贷 情况 。 这 样 ,银行 才能 有 效 地 决定 是 否 给 此 人 继续 贷款 。 

同时 使 用 3 个 数据 库 进行 操作 并 非 是 一 件 简单 的 事 , 由 于 3 个 管理 业务 各 自 独立 ,在 建 

。，] ， 


立 数 据 库 时 对 同一 个 人 可 能 使 用 了 不 同 的 编码 ,对 于 他 的 姓名 可 能 有 的 用 汉字 ,有 的 用 汉语 
拼音 ,有 的 用 英文 。 这 为 使 用 3 个 数据 库 地 共同 进行 决策 分 析 带 来 了 困难 。 


2. 数据 仓库 用 于 决策 分 析 


随 着 决策 分 析 的 需求 扩大 ,兴起 了 支持 决策 的 数据 仓库 。 它 是 以 决策 主题 需求 集成 多 
个 数据 库 ,重新 组 织 数据 结构 ,统一 规范 编码 ,使 其 有 效 地 完成 各 种 决策 分 析 。 

从 数据 库 到 数据 仓库 的 演变 ,体现 了 以 下 几 点 。 

(1) 数据 库 用 于 事务 处 理 , 数 据 仓库 用 于 决策 分 析 
事务 处 理 功 能 单一 ,数据 库 完 成 事务 处 理 的 增加 、 删 除 .修改 ,查询 等 操作 。 决 策 分 析 要 
求 数据 较 多。 数据 仓库 需要 存储 更 多 的 数据 ,不 需要 修改 数据 ,主要 提取 综合 数据 的 信息 ， 
以 及 分 析 预 测 数 据 的 信息 。 

(2) 数据 库 保持 事务 处 理 的 当前 状态 ,数据 仓库 既 保存 过 去 的 数据 又 保存 当前 的 数据 

数据 库 中 数据 随 业务 的 变化 一 直 在 更 新 ,总 保存 当前 的 数据 ,如 学 生 数据 库 。 数 据 仓 库 
中 数据 不 随时 间 变 化 而 变化 ,但 保留 大 量 不 同时 间 的 数据 , 即 保留 历史 数据 和 当前 数据 。 

(3) 数据 仓库 的 数据 是 大 量 数 据 库 的 集成 

数据 仓库 的 数据 不 是 数据 库 的 简单 集成 ,而 是 按 决 策 主 题 ,将 大 量 数据 库 中 数据 进行 重 
新 组 织 , 统 一 编码 进行 集成 。 如 银行 数据 仓库 数据 是 由 储蓄 数据 库 、 信 用 卡 数 据 库 、 贷 款 数 
据 库 等 多 个 数据 库 按 “ 用 户 ” 主 题 进行 重新 组 织 、 编 码 和 集成 而 建立 的 。 可 见 ,数据 仓库 的 数 
据 量 比 数据 库 的 数据 量 大 得 多 。 

(4) 对 数据 库 的 操作 比较 明确 ,操作 数据 量 少 。 对 数据 仓库 操作 不 明确 ,操作 数据 量 大 

一 般 对 数据 库 的 操作 都 是 事先 知道 的 事务 处 理工 作 ,每 次 操作 (增加 、 删 除 修改. 查询) 
涉及 的 数据 量 也 小 ,如 一 个 或 几 个 记录 数据 。 

对 数据 仓库 的 操作 都 是 根据 当时 决策 需求 临时 决定 而 进行 的 。 如 比较 两 个 地 区 某 个 商 
品 销售 的 情况 。 该 操作 所 涉及 的 数据 量 很 大 ,不 是 几 个 记录 数据 ,而 是 两 个 地 区 多 个 商店 的 
某 商 品 的 所 有 销售 记录 。 


3. 数据 库 与 数据 仓库 对 比 


数据 库 与 数据 仓库 的 对 比如 表 1. 1 所 示 。 
表 1.1 数据 库 与 数据 仓库 对 比 


数据 库 数据 仓库 
面向 应 用 面向 主题 
数据 是 详细 的 数据 是 综合 的 或 提炼 的 
保持 当前 数据 保存 过 去 和 现在 的 数据 
数据 是 可 更 新 的 数据 不 更 新 
对 数据 操作 是 重复 的 对 数据 的 操作 是 启发 式 的 


操作 需求 是 事先 可 知 操作 需求 是 临时 决定 的 


数据 库 数据 仓库 

一 个 操作 存 取 一 个 记录 一 个 操作 存 取 一 个 集合 

数据 非 宛 余 数据 时 常 元 余 

操作 比较 频繁 操作 相对 不 频繁 

查询 的 是 原始 数据 查询 的 是 经 过 加 工 的 数据 
事务 处 理 需 要 的 是 当前 数据 决策 分 析 需 要 过 去 ,现在 的 数据 
很 少 有 复杂 的 计算 很 多 复杂 的 计算 

支持 事务 处 理 支持 决策 分 析 


1.1.2 从 OLTP 到 OLAP 


1. 联机 事物 处 理 (on line transaction processing,OLTP) 


联机 事物 处 理 是 在 网 络 环境 下 的 事务 处 理工 作 , 利 用 计算 机 网 络 技术 ,以 快速 的 事务 响 
应 和 频繁 的 数据 修改 为 特征 ,使 用 户 利用 数据 库 能 够 快速 地 处 理 具体 的 业务 。OLTP 是 事 
务 处 理 从 单机 到 网 络 环境 发 展 的 新 阶段 。OLTP 应 用 要 求 多 个 查询 并 行 , 以 便 将 每 个 查询 
分 布 到 一 个 处 理 器 上 。 

OLTP 的 特点 在 于 事务 处 理 量 大 ,但 事务 处 理 内 容 比 较 简 单 且 重 复 率 高 。 大 量 的 数据 
操作 主要 涉及 的 是 一 些 增 加 、 删 除 、 修 改 、 查 询 等 操作 。 每 次 操作 的 数据 量 不 大 且 多 为 当前 
的 数据 ,OLTP 的 数据 组 织 的 数据 模型 采用 实体 -关系 (E-R) 模 型 。 

OLTP 处 理 的 数据 是 高 度 结构 化 的 ,涉及 的 事务 比较 简单 ,数据 访问 路 径 是 已 知 的 ,至 
少 是 固定 的 。 事 务 处 理应 用 程序 可 以 直接 使 用 具体 的 数据 结构 ,如 表 、 索 引 等 。 

OLTP 面 对 的 是 事务 处 理 操作 人 员 和 低层 管理 人 员 。 

在 过 去 三 十 多 年 中 ,OLTP 系统 发 展 的 目标 就 是 能 够 处 理 大 量 的 数据 。 每 时 间 单 位 能 
够 处 理 更 多 的 事务 ,能 支持 更 多 的 并 发 用 户 , 且 有 更 好 的 系统 健壮 性 。 大 型 的 系统 每 秒 能 够 
处 理 1000 个 以 上 的 事务 。 有 些 系统 , 像 机 票 预订 系统 ,每 秒 能 够 处 理 的 事务 峰值 可 以 达到 
2 让 带 : 

数据 库存 储 的 数据 量 很 大 ,经 常 每 天 要 处 理 成 千 上 万 的 事务 ,OLTP 在 查找 业务 数据 时 
是 非常 有 效 的 。 但 是 为 高 层 领导 者 提供 决策 分 析 时 , 则 显得 力不从心 。 


2. 联机 分 析 处 理 (on line analytical processing,OLAP) 


关系 数据 库 之 父 E.F. Codd 在 1993 年 认为 ,联机 事务 处 理 已 经 不 能 满足 终端 用 户 对 数 
据 库 决策 分 析 的 需要 ,决策 分 析 需 要 对 多 个 关系 数据 库 共同 进行 大 量 的 综合 计算 才能 得 到 
结果 。 为 此 ,他 提出 了 多 维 数据 库 和 多 维 分 析 的 概念 , 即 联机 分 析 处 理 概念 。 关 系数 据 库 是 
二 维 数据 (平面 ) ,多 维 数据 库 是 空间 立体 数据 。 

近年 来 ,人 们 利用 信息 技术 生产 和 搜集 数据 的 能 力 大 幅度 提高 ,大 量 的 数据 库 被 用 于 商 
业 管 理 , 政 府 办 公 、 科 学 研究 和 工程 开发 等 ,这 一 势头 仍 将 持续 发 展 下 去 。 于 是 ,一 个 新 的 挑 
战 被 提出 来 : 在 信息 爆炸 的 时 代 , 信 息 过 量 几 乎 成 为 人 人 需要 面 对 的 问题 。 如 何 才能 不 被 
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信息 的 汪洋 大 海 所 淹没 ,从 中 及 时 发 现 有 用 的 知识 或 者 规律 ,提高 信息 利用 率 呢 ? 要 想 使 数 
据 真正 成 为 一 个 决策 资源 ,只 有 充分 利用 它 为 一 个 组 织 的 业务 决策 和 战略 发 展 服务 才 行 , 否 
则 大 量 的 数据 可 能 成 为 包 补 ,甚至 成 为 垃圾 。OLAP 是 解决 这 类 问题 的 最 有 力 的 工具 之 一 。 

OLAP 专门 用 于 支持 复杂 的 分 析 操 作 , 侧 重 对 分 析 人 员 和 高 层 管理 人 员 的 决策 支持 ， 
可 以 应 分 析 人 员 的 要 求 快 速 、 灵 活 地 进行 大 数据 量 的 复杂 处 理 , 并 且 以 一 种 直观 易 懂 的 形式 
将 查询 结果 提供 给 决策 制定 人 ,以 便 他 们 准确 掌握 企业 (公司 ) 的 经 营 情况 ,了 解 市 场 需求 ， 
制定 正确 方案 ,以 增加 效益 。OLAP 软件 以 它 先 进 的 分 析 功 能 和 以 多 维 形式 提供 数据 的 能 
力 , 正 作为 一 种 支持 企业 关键 商业 决策 的 解决 方案 而 迅速 崛起 。 

OLAP 的 基本 思想 是 决策 者 从 多 方面 和 多 角度 以 多 维 的 形式 来 观察 企业 的 状态 和 了 
解 企业 的 变化 。 


3. OLTP 与 OLAP 的 对 比 


OLAP 是 以 数据 仓库 为 基础 ,其 最 终 数据 来 源 与 OLTP 一 样 均 来 自 底层 的 数据 库 系 
统 ,但 由 于 二 者 面 对 的 用 户 不 同 ,OLTP 面 对 的 是 操作 人 员 和 低层 管理 人 员 ,OLAP 面 对 的 
是 决策 人 员 和 高 层 管理 人 员 ,因而 数据 的 特点 与 处 理 也 明显 不 同 。 
OLTP 和 OLAP 是 两 类 不 同 的 应 用 ,它们 的 各 自 特 点 见 表 1. 2 所 示 。 
表 1.2 OLTP 与 OLAP 对 比 表 


OLTP OLAP 


数据 库 数 据 数据 库 或 数据 仓库 数据 
细节 性 数据 综合 性 数据 

当前 数据 历史 数据 

经 常 更 新 不 更 新 ,但 周期 性 刷新 

一 次 性 处 理 的 数据 量 小 一 次 性 处 理 的 数据 量 大 

对 响应 时 间 要 求 高 响应 时 间 合 理 

用 户 数量 大 用 户 数量 相对 较 少 

面向 操作 人 员 ,支持 日 常 操作 面向 决策 人 员 ,支持 决策 需要 
面向 应 用 ,事务 驱动 面向 分 析 , 分 析 驱 动 


1.1.3 数据 字典 与 元 数据 


1. 数据 库 的 数据 字典 


数据 字典 是 数据 库 中 各 类 数据 描述 的 集合 ,在 数据 库 设计 中 占有 很 重要 的 地 位 。 数 据 
字典 通常 包括 数据 项 数据 结构 .数据 流 ,数据 存储 和 处 理 过 程 5 个 部 分 ,其 中 数据 项 是 数据 
的 最 小 组 成 单位 。 若 干 个 数据 项 可 以 组 成 一 个 数据 结构 。 数 据 字 典 通过 对 数据 项 和 数据 结 
构 的 定义 来 描述 数据 流 .数据 存储 的 逻辑 内 容 。 

(1) 数据 项 

数据 项 是 不 可 再 分 的 数据 单位 。 对 数据 项 的 描述 通常 包括 数据 项 名 ` 数 据 项 含义 说 明 、 
数据 类 型 .长度 . 取 值 范 围 和 取 值 含义 等 。 
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(2) 数据 结构 

数据 结构 反映 了 数据 之 间 的 组 合 关系 。 一 个 数据 结构 可 以 由 若干 个 数据 项 组 成 ,也 可 
以 由 若干 个 数据 结构 组 成 。 数 据 结构 的 描述 通常 包括 数据 结构 名 、 含 义 说 明和 数据 项 等 。 

(3) 数据 流 

数据 流 是 数据 结构 在 系统 内 传输 的 路 径 ,对 数据 流 的 描述 通常 包括 数据 流 名 、 说 明 、 数 
据 流 来 源 、 数 据 流 去 向 和 平均 流量 等 。 其 中 “数据 流 来 源 " 是 说 明 该 数据 流 来 自 哪 个 过 程 。 
“数据 流 去 向 ”是 说 明 该 数据 流 将 到 哪个 过 程 去 。“ 平 均 流 量 ” 是 指 单位 时 间 ( 如 每 天 ) 传 输 的 
次 数 。 

(4) 数据 存储 

数据 存储 是 数据 结构 保存 数据 的 地 方 , 数 据 存储 的 描述 通常 包括 数据 存储 名 、 说 明 、 编 
号 .输入 的 数据 流 、 输 出 的 数据 流 、 数 据 量 、 存 取 频 度 和 存 取 方式 。 其 中 “ 存 取 频 度 ” 指 每 小 时 
或 每 天 或 每 周 存 取 几 次 、 每 次 存 取 多 少数 据 等 信息 。“ 存 取 方 式 ” 包 括 是 批 处 理 还 是 联机 处 
理 ;是 检索 还 是 更 新 ;是 顺序 检索 还 是 随机 检索 等 。 男 外 ,“ 输 入 的 数据 流 ” 要 指出 其 来 源 ， 
“输出 的 数据 流 ? 要 指出 其 去 向 。 

(5) 处 理 过 程 

处 理 过 程 一 般 用 判定 表 或 判定 树 来 描述 。 数 据 字 典 中 只 需要 描述 处 理 过 程 的 说 明 性 信 
息 ,通常 包括 处 理 过 程 名 说明 ,输入 、 输 出 和 处 理 。 其 中 “处 理 ” 中 主要 说 明 该 处 理 过 程 的 功 
能 及 处 理 要 求 。 

可 见 ,数据 字典 是 关于 数据 库 中 数据 的 描述 ,而 不 是 数据 本 身 。 


2. 数据 仓库 的 元 数据 


数据 仓库 远 比 数据 库 复 杂 。 在 数据 仓库 中 引入 了 “元 数据 "的 概念 , 它 不 仅 是 数据 仓库 
的 字典 ,而 且 还 是 数据 仓库 本 身 信息 的 数据 。 

元 数据 (meta data) 定 义 为 关于 数据 的 数据 (data about data) , 即 元 数据 描述 了 数据 仓 
库 的 数据 和 环境 。 

元 数据 在 数据 仓库 中 不 仅 定 义 了 数据 仓库 有 什么 ,还 指明 了 数据 仓库 中 信息 的 内 容 和 
位 置 , 刻 画 了 数据 的 抽取 和 转换 规则 ,存储 了 与 数据 仓库 主题 有 关 的 各 种 商业 信息 ,而 且 整 
个 数据 仓库 的 运行 都 是 基于 元 数据 的 ,如 数据 的 修改 跟踪、 抽取 、 装 入 、 综 合 以 及 使 用 等 。 
由 于 元 数据 遍及 数据 仓库 的 所 有 方面 ,已 成 为 整个 数据 仓库 的 核心 。 

数据 仓库 的 元 数据 除 对 数据 仓库 中 数据 的 描述 (数据 仓库 字典 ) 外 ,还 有 以 下 3 类 元 
数据 。 

(1) 关于 数据 源 的 元 数据 

数据 仓库 的 数据 源 包含 了 很 多 不 同 的 数据 结构 ,为 数据 仓库 选取 的 数据 元 素 字 段 长 度 
和 数据 类 型 而 有 所 不 同 。 为 数据 仓库 挑选 数据 时 ,得 将 记录 拆 分 ,并 将 来 自 不 同 源 文件 的 记 
录 的 某 些 部 分 组 合 起 来 ,还 要 解决 编码 和 字段 长 度 不 同 的 问题 。 当 将 这 些 信息 传递 给 最 终 
用 户 的 时 候 ,必须 把 这 些 数据 与 原始 数据 联系 起 来 。 

(2) 关于 抽取 和 转换 的 元 数据 

这 类 元 数据 包含 了 源 数据 系统 的 数据 抽取 方法 .数据 抽取 规则 ,以 及 抽取 频率 等 数据 转 
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换 的 所 有 信息 。 

(3) 关于 最 终 用 户 的 元 数据 

最 终 用 户 元 数据 是 数据 仓库 的 导航 图 ,使 最 终 用 户 可 以 从 数据 仓库 中 找到 自己 需要 的 
信息 。 


1.1.4 数据 仓库 的 定义 与 特点 


数据 仓库 的 概念 是 由 W. H. Inmon 在 《建立 数据 仓库 (Building the Data Warehouse)》 
一 书 中 提出 的 。 数 据 仓库 的 提出 是 以 关系 数据 库 、 并 行 处 理 和 分 布 式 技术 为 基础 的 信息 新 
技术 。 

从 目前 的 形势 看 ,数据 仓库 技术 已 紧 跟 Internet, 成 为 信息 社会 中 获得 企业 竞争 优势 的 
又 一 关键 技术 。 


1. 数据 仓库 定义 


(1) W. H. Inmon 对 数据 仓库 的 定义 

数据 仓库 是 面向 主题 的 ,集成 的 ,稳定 的 .不 同时 间 的 数据 集合 ,用 于 支持 经 营 管理 中 决 
策 制定 过 程 。 

(2) SAS 软件 研究 所 的 观点 

数据 仓库 是 一 种 管理 技术 , 旨 在 通过 通畅 ,合理 .全面 的 信息 管理 ,达到 有 效 的 决策 
支持 。 

从 数据 仓库 的 定义 可 以 看 出 ,数据 仓库 是 为 决策 支持 服务 的 ,而 数据 库 是 为 事务 处 理 服 
务 的 。 


2. 数据 仓库 特点 


从 数据 仓库 的 定义 可 以 看 出 数据 仓库 的 特点 如 下 。 

(1) 数据 仓库 是 面向 主题 的 

主题 是 数据 归 类 的 标准 ,每 一 个 主题 基本 对 应 一 个 宏观 的 分 析 领 域 。 例 如 ,保险 公司 的 
数据 仓库 的 主题 为 客户 ,政策 .保险 金 和 索赔 等 。 

基于 应 用 的 数据 库 组 织 则 完全 不 同 , 它 的 数据 只 是 为 处 理 具体 应 用 而 组 织 在 一 起 的 。 
保险 公司 按 应 用 组 织 的 数据 库 是 汽车 保险 、 生 命 保险 、 健 康 保险 和 伤亡 保险 等 。 

(2) 数据 仓库 是 集成 的 

数据 进入 数据 仓库 之 前 ,必须 经 过 加 工 与 集成 。 对 不 同 的 数据 来 源 进行 统一 数据 结构 
和 编码 。 统 一 原始 数据 中 的 所 有 矛盾 之 处 ,如 字段 的 同名 异 义 、 异 名 同 义 、 单 位 不 统一 和 字 
长 不 一 致 等 。 总 之 ,将 原始 数据 结构 做 一 个 从 面向 应 用 到 面向 主题 的 大 转变 。 

(3) 数据 仓库 是 稳定 的 

数据 仓库 中 包括 了 大 量 的 历史 数据 。 数 据 经 集成 进入 数据 仓库 后 是 极 少 或 根本 不 更 
新 的 。 

(4) 数据 仓库 是 随时 间 变 化 的 

数据 仓库 内 的 数据 时 限 在 5 一 10 年 , 故 数据 的 键 码 包 含 时 间 项 ,并 标明 数据 的 历史 时 
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期 ,以 便 适 合 决策 分 析 时 进行 时 间 趋 势 分 析 。 

而 数据 库 只 包含 当前 数据 , 即 存储 某 一 时 间 的 正确 的 有 效 数据 。 

(5) 数据 仓库 中 的 数据 量 很 大 

通常 的 数据 仓库 的 数据 量 为 10GB 级 ,相当 于 一 般 数 据 库 100MB 的 100 倍 , 大 型 数据 
仓库 是 一 个 TB(1000GB) 级 数据 量 。 

数据 仓库 中 数据 量 的 比重 是 : 索引 和 综合 数据 占 2/3 ,原始 数据 占 1/3。 

(6) 数据 仓库 软 硬 件 要 求 较 高 

Q@ 需要 一 个 巨大 的 硬件 平台 ; 

@ 需要 一 个 并 行 的 数据 库 系统 。 


1.2 数据 挖掘 的 兴 


1.2.1 从 机 器 学 习 到 数据 挖掘 


学 习 是 人 类 具有 的 智能 行为 ,主要 在 于 获取 知识 。 机 器 学 习 是 研究 使 计算 机 模拟 或 实 
现 人 类 的 学 习 行 为 , 即 让 计算 机 通过 算法 自动 获取 知识 。 机 器 学 习 是 人 工 智 能 领域 中 的 重 
要 研究 方向 。 

20 世纪 60 年 代 开 始 了 机 器 学 习 的 研究 。 比 较 典 型 的 成 果 有 : Rosenblate 的 感知 机 , 它 
是 最 早 用 神经 网 络 进行 模式 识别 的 方法 ;Sammel 的 西洋 跳棋 程序 , 它 用 线性 表达 式 的 启发 
式 方法 ,通过 多 次 人 机 对 弈 ,自动 修改 表达 式 中 的 系数 ,使 程序 逐渐 聪明 ,该 程序 竟然 达到 胜 
过 开发 者 和 州 冠 军 的 成 绩 。 

20 世纪 80 年 代 , 机 器 学 习 取 得 了 较 大 的 成 果 。Michelski 等 人 的 AQ11 系统 (1980) 能 
从 大 量 病例 中 归纳 出 大 豆 病 症 的 判断 规则 。AQ11 是 一 个 很 成 功 的 归纳 学 习 方法 ;Quiulan 
的 ID3(1983) 决 策 树 方法 ,影响 很 大 ,实用 效果 很 强 ;Langley 等 人 的 BACON 系统 (1987) 能 
重新 发 现 物理 学 的 大 量规 律 ;Rumelhart 等 人 研制 的 反 向 传播 神经 网 络 BP 模型 (1985) 为 神 
经 网 络 的 学 习 开创 了 一 个 新 阶段 。 

这 些 显 著 成 果 的 出 现 , 使 * 机 器 学 习 ” 逐 渐 形成 了 人 工 智能 的 主要 学 科 方 向 之 一 。1980 
年 在 美国 召开 了 第 一 届 国 际 机 器 学 习 学 会 研讨 会 ,1984 年 (机 器 学 习 ) 杂 志 问 志 。 

中 国 在 1987 年 召开 了 第 一 届 全 国 机 器 学 习 研讨 会 。1989 年 成 立 了 中 国人 工 智 能 学 会 
机 器 学 习 学 会 。 中 国学 者 洪 家 荣 研制 的 AE1 系统 (1985) 采 用 了 扩张 矩阵 方法 ;钟鸣 等 人 研 
制 的 IBLE 方法 (1992) 利 用 信道 容量 建立 决策 规则 树 ,识别 效 果 比 ID3 方法 更 高 。 本 书 作 
者 研制 的 FDD 经 验 公式 发 现 系 统 (1998) ,能 发 现 含 初等 函数 或 复合 函数 的 经 验 公式 ,发 现 
的 公式 比 BACON 系统 发 现 的 公式 范围 更 宽 。 

1989 年 美国 召开 了 第 一 届 知 识 发 现 (knowledge discovery in database, KDD) 国 际 学 术 
会 议 , 从 数据 库 中 发 现 知识 形成 了 新 概念 。KDD 研究 的 问题 有 : 定性 知识 和 定量 知识 的 发 
现 ; 知 识 发 现 方法 ;知识 发 现 的 应 用 等 。 

1995 年 在 加 拿 大 召开 了 第 一 届 知 识 发 现 和 数据 挖掘 (data mining,DM) 国 际 学 术 会 议 。 
由 于 把 数据 库 中 的 “数据 ”形象 地 比喻 成 矿床 “数据 挖掘 ”一 词 很 快 流传 开 来 。 


数据 挖掘 是 知识 发 现 中 的 核心 工作 ,主要 研究 发 现 知识 的 各 种 方法 和 技术 。 而 这 些 方 
法 和 技术 主要 来 自 于 机 器 学 习 。 由 于 数据 挖掘 的 发 展 ,出 现 了 一 些 新 的 数据 挖掘 方法 ,如 大 
型 数据 库 中 关联 规则 的 挖掘 ,以 及 利用 粗糙 集 进 行 属性 约 简 和 规则 获取 等 。 

数据 挖掘 兴起 时 主要 是 在 数据 库 中 挖掘 知识 , 随 着 数据 仓库 的 出 现 和 发 展 ,很 快 将 数据 
挖掘 技术 和 方法 用 于 数据 仓库 。 典 型 的 啤酒 与 尿布 的 故事 (该 两 商品 同时 出 售 的 出 现 概率 
很 高 ) 就 是 在 数据 仓库 中 挖掘 出 的 关联 知识 。 


1.2.2 数据 挖掘 的 含义 


按 ( 人 工 智 能 辞典 ) 的 定义 : 信息 是 数据 中 所 蕴涵 的 意义 。 知 识 是 人 们 对 客观 世界 的 规 
律 性 认识 。 

数据 库 中 每 个 数据 记录 的 内 涵 代 表 了 该 记录 的 信息 。 而 数据 挖掘 是 从 数据 库 中 所 有 数 
据 记 录 中 归纳 总 结 出 知识 。 知 识 的 数量 大 大 少 于 数据 记录 量 。 这 些 知 识 代表 了 数据 库 中 数 
据 信息 的 规律 , 即 用 少量 的 知识 能 够 覆盖 数据 库 中 所 有 的 记录 。 

例如 ,人 口 数据 库 中 存储 各 国人 口 的 记录 , 它 将 是 一 个 庞大 的 数据 库 。 但 是 ,通过 数据 
挖掘 ,可 以 得 出 形式 化 表示 的 规则 知识 : 

(头发 二 黑色 ) V (眼睛 王 黑色 ) 一 亚洲 人 

其 中 V 表示 “或 "; 一 表示 “蕴涵 ”, 规 则 知识 表示 为 :“ 若 (条 件 ) 则 (结论 )”, 即 表示 : 若 
头发 是 黑色 或 者 眼睛 是 黑色 的 人 , 则 他 是 亚洲 人 。 

该 知识 代表 了 亚洲 人 的 特点 , 即 履 盖 了 所 有 亚洲 人 的 记录 。 

知识 的 获得 是 通过 数据 挖掘 算法 ,如 AQ11 方法 和 ID3 方法 等 经 过 计算 得 到 的 。 


1.2.3 数据 挖掘 与 OLAP 的 比较 


1. OLAP 的 多 维 分 析 


OLAP 是 在 多 维 数据 结构 上 进行 数据 分 析 的 。 对 多 维 数据 进行 分 析 是 复杂 的 。 一 般 
从 多 维 数据 取出 (切片 、 切 块 ) 二 维 或 三 维 数据 进行 分 析 , 或 对 层次 的 维 进行 钼 取 操 作 , 向 下 
钻 取 获 得 更 详细 的 数据 ,向 上 钻 取 获得 更 综合 的 数据 。 

OLAP 要 适应 大 量 用 户 同时 使 用 同一 批 数据 ,适应 于 不 同 地 理 位 置 的 分 散 化 的 决策 。 
OLAP 的 功能 和 算法 包括 聚合 .分 配 、 比 率 . 乘 积 等 描述 性 的 建 模 功 能 。 

OLAP 平时 需要 查询 大 量 的 日 常 商 业 活 动 信息 ,如 每 周 的 布匹 购买 量 、 每 周 布 匹 的 内 
部 库存 以 及 布匹 的 销售 量 等 。OLAP 更 需要 查询 商业 活动 的 变化 情况 ,如 每 周 布匹 购买 量 
的 变化 值 . 衣 服 生产 量 的 变化 值 .衣服 销售 价格 的 变化 等 。 这 些 变化 值 对 经 理 制定 决策 更 
重要 。 

经 理 往往 从 查询 出 的 变化 值 中 ,通过 OLAP 追踪 查询 , 找 出 存在 的 原因 。 例 如 ,经 理 看 
到 利润 小 于 预计 值 的 时 候 ,可 能 会 深入 到 各 个 国家 查看 整个 产品 利润 情况 。 这 样 ,他 可 能 发 
现 有 些 国 家 的 利润 明显 低 于 其 他 国家 ,于 是 他 自然 就 会 查看 这 些 国家 中 不 同 产品 组 的 利润 
情况 ,总 的 目标 就 是 寻找 一 些 比较 异常 的 数据 来 解释 某 个 现象 。 经 过 一 番 观 察 之 后 ,就 会 发 
现 非 直接 成 本 在 这 些 国家 明显 偏 高 。 进 一 步 对 这 些 非 直 接 成 本 分 析 , 可 以 发 现 近期 对 于 某 
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些 产品 的 赋税 明显 增加 ,从 而 明显 影响 了 最 终 的 利润 。 这 种 分 析 查 询 要 求 时 间 响 应 快 。 
以 上 是 OLAP 的 典型 应 用 ,通过 商业 活动 变化 的 查询 发 现 的 问题 ,经 过 追踪 查询 找 出 
问题 出 现 的 原因 ,达到 辅助 决策 的 作用 。 


2. 数据 挖掘 


OLAP 是 在 带 层次 的 维度 和 跨 维度 进行 多 维 数据 分 析 的 。 数 据 挖掘 则 不 同 ,是 以 变量 
和 记录 为 基础 进行 分 析 的 。 

数据 挖掘 任务 在 于 聚 类 (如 神经 网 络 聚 类 )、 分 类 (如 决策 树 分 类 ) ,预测 等 。 这 些 是 带 有 
探索 性 的 建 模 功 能 。 

数据 挖掘 在 于 寻找 不 平常 的 且 有 用 的 商业 运作 模型 。 考 察 数据 的 不 同类 型 或 者 找 出 变 
量 之 间 的 关系 。 数 据 挖掘 需要 查看 海量 数据 ,主要 是 详细 数据 和 历史 数据 。 为 此 经 常 将 数 
据 仓 库 中 的 数据 复制 到 一 个 专门 的 存储 器 上 ,对 数据 的 挖掘 分 析 可 能 要 花 去 大 量 的 时 间 , 即 
不 要 求 快速 分 析 。 数 据 挖掘 人 员 有 时 并 不 能 精确 地 知道 什么 是 必须 分 析 的 ,有 时 数据 挖掘 
一 无 所 获 。 但 是 ,有 时 通过 数据 挖掘 会 发 现 意外 的 、 无 价 的 信息 “ 金 块 "。 例 如 ,如 果 能 够 确 
定 一 个 高 价值 的 客户 或 可 能 离开 的 客户 特征 ,就 可 以 要 求 公 司 采取 措施 保留 这 些 客户 ,这 比 
从 竞争 对 手 那 儿 重新 争取 曾经 失去 的 客户 费用 少 得 多 。 


1.2.4 数据 挖掘 与 统计 学 


1. 统计 学 的 发 展 过 程 


统计 学 是 一 门 有 悠久 历史 的 学 科 。 统 计 学 开始 于 17、18 世纪 ,与 国家 政治 有 紧密 的 关 
系 。 英国 W. Petty(1623 一 1682 年 ) 的 《政治 算术 ) 一 书 中 第 一 次 用 计量 和 比较 的 方法 ,对 英 
国 与 法 、 意 、 荷 等 国 进 行 国力 比较 。J. Graunt(1620 一 1674 年 ) 通 过 统计 计算 ,发 现 男女 人 数 
占 人 口 数 的 比例 大 致 相等 .出 生 儿 中 男 婴 比例 稍 高 . 婴 幼 儿 的 死亡 率 较 大 等 规律 性 的 现象 。 

17 世纪 ,B. Pascal 等 人 提出 “概率 ”概念 ,用 来 描述 某 一 事件 发 生 的 可 能 性 。18 世纪 ， 
在 观测 天 体 运 动 时 会 有 误差 产生 ,虽然 多 次 测量 ,由 于 有 误差 ,得 到 的 总 是 和 真 值 不 同 的 值 。 
高 斯 (Gauss,1777 一 1855 年 ) 提 出 误差 值 落 在 (a,5) 区 间 的 概率 等 于 该 区 间 上 正 态 分 布 曲线 
下 的 面积 , 称 误差 服从 正 态 分 布 (高 斯 分 布 )。 比 利 时 的 凯特 勒 (A. Quetelet,1796 一 1874 
年 ) 称 “支配 着 社会 现象 的 法 则 和 方法 是 概率 论 ”。 

近代 统计 学 重视 社会 调查 。 通 过 对 全 部 对 象 (总 体 ) 进 行 调查 ,为 制定 计划 和 决策 提供 
依据 ,如 果 对 总 体 的 某 些 分 布 情况 有 一 定 把 握 , 就 不 必 搞 全 面 调查 ,可 以 搞 部 分 调查 , 即 抽样 
调查 ,由 部 分 推断 全 部 。 概 率 论 和 数理 统计 理论 起 着 重要 的 作用 。 现 在 各 国 在 经 济 统计 、 国 
事 调 查 .社会 调查 .收视 率 调 查 .民意 测验 等 采用 的 几乎 都 是 抽样 调查 。 

现代 统计 学 从 线性 到 非 线性 .从 低 维 到 高 维 . 从 显 在 到 潜在 ,从 连续 到 离散 等 方面 有 较 完 
备 的 理论 和 方法 。 统 计 软件 包 SPSS、SAS 等 已 经 普及 ,统计 工作 基本 上 利用 计算 机 来 完成 。 


2. 统计 学 中 应 用 于 数据 挖掘 的 内 容 


(1) 常用 统计 
在 大 量 数据 中 求 最 大 值 . 最 小 值 .总 和 、 平 均值 等 。 


(2) 相关 分 析 

通过 求 变量 间 的 相关 系数 来 确定 变量 间 的 相关 程度 。 

(3) 回归 分 析 

建立 回归 方程 (线性 或 非 线 性 ) 以 表示 变量 间 的 数量 关系 ,再 利用 回归 方程 进行 预测 。 

(4) 假设 检验 

在 总 体 存 在 某 些 不 确定 情况 时 ,为 了 推断 总 体 的 某 些 性 质 , 提 出 关于 总 体 的 某 些 假设 ， 
对 此 假设 利用 置信 区 间 来 检验 , 即 任何 落 在 置信 区 间 之 外 的 假设 判断 为 “拒绝 ,任何 落 在 置 
信 区 间 之 内 的 假设 判断 为 “接受 ”。 

(5) 聚 类 分 析 

将 样品 或 变量 进行 聚 类 的 方法 ,具体 方法 是 把 样品 中 每 一 个 样品 看 成 是 m 维 空间 的 一 
个 点 , 聚 类 是 把 “距离 ” 较 近 的 一 个 点 归 为 同一 类 ,而 将 距离” 较 远 的 点 归 为 不 同 的 类 。 

(6) 判别 分 析 

建立 一 个 或 多 个 判别 函数 ,并 确定 一 个 判别 标准 。 对 未 知 对 象 利用 判别 函数 将 它 划 归 
某 一 个 类 别 。 

(7) 主 成 分 分 析 

主 成 分 分 析 是 把 多 个 变量 化 为 少数 的 几 个 综合 变量 ,而 这 几 个 综合 变量 可 以 反映 原来 
多 个 变量 的 大 部 分 信息 。 

主 成 分 分 析 的 一 种 推广 是 因子 分 析 , 即 用 少数 几 个 因子 (F;) 去 描述 许多 变量 (Xj ) 之 间 
的 关系 。 变 量 (X;) 是 可 以 观测 的 显 在 变量 ,而 因子 (F;) 是 不 可 观测 的 潜在 变量 。 


3. 统计 学 与 数据 挖掘 的 比较 


统计 学 主要 是 对 数量 数据 (数值 ) 或 连续 值 数 据 ( 如 年 龄 .工资 等 ) 进 行 数值 计算 (如 初等 
运算 ) 的 定量 分 析 , 得 到 数量 信息 。 如 常用 统计 量 (最 大 值 、 最 小 值 .平均 值 、 总 和 等 )、 相 关系 
数 、 回 归 方 程 等 。 

数据 挖掘 主要 对 离散 数据 (如 职称 、 病 症 等 ) 进 行 定性 分 析 ( 和 覆盖 、 归 纳 等 ) ,得 到 规则 知 
识 。 例 如 ,如 果 某 人 的 眼睛 是 黑 的 或 者 头发 是 黑 的 , 则 可 以 认为 他 是 亚洲 人 。 

在 统计 学 中 有 聚 类 分 析 和 判别 分 析 , 它 们 与 数据 挖掘 中 的 聚 类 和 分 类 相似 。 但 是 ,采用 
的 标准 不 一 样 , 统 计 学 的 聚 类 采用 的 “距离 ”是 欧式 距离 , 即 两 点 间 的 坐标 (数值 ) 距 离 。 而 数 
据 挖掘 的 聚 类 采用 的 “距离 是 海 明 距 离 , 即 属性 取 值 是 否 相同 ,相同 者 距离 为 0, 不 相同 者 
距离 为 1。 

总 之 ,统计 学 与 数据 挖掘 是 有 区 别 的 ,但 是 ,它们 之 间 是 相互 补充 的 。 不 少数 据 挖 掘 的 
著作 中 均 把 统计 学 的 不 少 方法 引入 到 数据 挖掘 中 ,与 将 机 器 学 习 中 不 少 方法 引入 到 数据 挖 
掘 中 一 样 , 作 为 从 数据 获取 知识 的 一 大 类 方法 。 

虽然 统计 学 的 不 少 方法 可 以 归 入 到 数据 挖掘 中 ,但 统计 学 仍然 是 一 门 独立 的 学 科 。 

。， 10 。 


1.3 数据 仓库 和 数据 挖掘 的 结合 


1.3.1 数据 仓库 和 数据 挖掘 的 区 别 与 联系 


1. 数据 仓库 与 数据 挖掘 的 区 别 


数据 仓库 是 在 数据 库 的 基础 上 发 展 起 来 的 。 它 将 大 量 的 数据 库 的 数据 按 决策 需求 进行 
重新 组 织 , 以 数据 仓库 的 形式 进行 存储 ,将 为 用 户 提供 辅助 决策 的 随机 查询 ,综合 信息 以 及 
随时 间 变 化 的 趋势 分 析 信 息 等 。 

数据 仓库 是 一 种 存储 技术 ,其 数据 存储 量 是 一 般 数 据 库 的 100 信 , 包 含 大 量 的 历史 数 
据 、 当 前 的 详细 数据 以 及 综合 数据 。 它 能 适应 不 同 用 户 对 不 同 决策 需要 提供 所 需 的 数据 和 
信息 。 

数据 挖掘 是 从 人 工 智 能 机 器 学 习 中 发 展 起 来 的 。 它 研究 各 种 方法 和 技术 ,从 大 量 的 数 
据 中 挖掘 出 有 用 的 信息 和 知识 。 最 常用 的 数据 挖掘 方法 是 统计 分 析 方 法 、 神 经 网 络 方法 和 
机 器 学 习 中 研究 的 方法 。 数 据 挖 掘 中 采用 机 器 学 习 的 方法 有 归纳 学 习 方法 (如 覆盖 正 例 排 
斥 反例 方法 ,如 AQ 系列 算法 ,决策 树 方法 等 ) .遗传 算法 ,发现 学 习 算法 (如 公式 发 现 系统 
BACON) 等 。 

利用 数据 挖掘 的 方法 和 技术 从 数据 仓库 中 挖掘 的 信息 和 知识 ,反映 了 数据 仓库 中 数据 
的 规律 性 。 用 户 利 用 这 些 信 息 和 知识 来 指导 和 帮助 决策 。 例 如 ,利用 分 类 规则 来 预测 未 知 
实体 的 类 别 。 


2. 数据 仓库 与 数据 挖掘 的 关系 


数据 仓库 与 数据 挖掘 都 是 决策 支持 新 技术 ,但 它们 有 着 完全 不 同 的 辅助 决策 方式 。 数 
据 仓 库 中 存储 着 大 量 辅助 决策 的 数据 ,为 不 同 的 用 户 随时 提供 各 种 辅助 决策 的 随机 查询 . 综 
合 信息 或 趋势 分 析 信 息 。 数 据 挖掘 是 利用 一 系列 算法 挖掘 数据 中 隐 含 的 信息 和 知识 ,让 用 
户 在 进行 决策 中 使 用 。 

数据 仓库 和 数据 挖掘 可 以 结合 起 来 。 在 数据 仓库 系统 的 前 端 分 析 工 具 中 ,数据 挖掘 是 
其 中 重要 工具 之 一 。 它 可 以 帮助 决策 用 户 挖掘 数据 仓库 的 数据 中 隐 含 的 规律 性 。 

数据 挖掘 用 于 数据 仓库 实现 决策 支持 ,具体 表现 为 : 

(1) 预测 客户 购买 倾向 ; 

(2) 客户 利润 贡献 度 分 析 ; 

(3) 分 析 欺 诈 行 为 ; 

(4) 销售 渠道 优化 分 析 等 。 

数据 仓库 和 数据 挖掘 的 结合 对 支持 决策 会 起 更 大 的 作用 。 


3. 数据 仓库 中 数据 存储 特点 


数据 挖掘 兴起 时 是 针对 数据 库 , 随 着 数据 仓库 的 兴起 和 发 展 , 由 于 数据 仓库 不 同 于 数据 
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(1) 数据 存储 方式 的 不 同 

数据 库 的 数据 存储 是 按照 管理 业务 中 事物 处 理 项 目的 要 求 而 存放 的 。 

数据 仓库 的 数据 存储 是 按 决策 分 析 需 求 而 存放 的 。 这 种 需求 是 以 决策 主题 为 对 象 的 ， 
典型 的 主题 是 客户 。 这 样 ,在 数据 仓库 中 客户 数据 需要 从 多 个 数据 库 集成 而 来 ,如 银行 数据 
仓库 需要 从 储蓄 信用卡、 贷款 等 不 同 数 据 库 中 ,对 同一 客户 的 数据 抽取 并 集成 在 一 起 ,以 便 
完成 对 该 客户 的 分 析 。 

(2) 数据 存储 的 数据 量 的 不 同 

数据 库 的 数据 存储 量 相对 数据 仓库 的 数据 存储 量 小 得 多 。 从 上 面 的 例子 可 以 看 出 ,以 
客户 主题 建立 数据 仓库 的 数据 量 是 储蓄 、 信 用 卡 、 贷 款 3 个 数据 库 的 数据 量 的 总 和 。 按 一 般 
的 统计 ,数据 仓库 的 数据 量 是 数据 库 数 据 量 的 100 倍 。 数 据 仓库 的 数据 量 比 数据 库 的 数据 
量 大 这 么 多 在 于 : 

中 数据 仓库 中 的 数据 (近期 基本 数据 ) 是 数据 库 中 数据 按 决 策 主题 重新 组 织 并 集成 
而 来 ; 

@ 数据 仓库 中 数据 还 需要 保留 大 量 的 历史 数据 ,用 于 预测 分 析 ; 

@ 数据 仓库 为 了 给 不 同 级 别管 理 者 提供 各 种 决策 分 析 的 数据 ,需要 对 近期 基本 数据 进 
行 轻 度 综合 和 高 度 综合 ,这 些 综合 数据 在 数据 仓库 中 占据 了 不 小 的 比重 。 

近期 基本 数据 ,历史 数据 综合 数据 三 者 的 数据 相 加 ,使 数据 仓库 的 数据 量 远 远 大 于 数 
据 库 中 的 数据 量 。 

(3) 数据 存储 的 结构 不 同 

由 于 数据 仓库 的 数据 量 远 大 于 数据 库 的 存储 量 ,数据库 的 关系 型 二 维 ( 平 面 ) 存 储 格式 
不 能 适应 数据 仓库 。 数 据 仓库 的 数据 存储 结构 采用 多 维 的 超 立方 体 结构 形式 。 数 据 仓 库 的 
数据 存储 结构 采用 星 型 模型 或 者 多 维 立 体 数 据 库 形 式 。 


4. 数据 仓库 中 数据 挖掘 特点 


数据 仓库 的 最 大 应 用 在 于 扩展 市 场 , 制 定 营销 策略 ,争取 更 多 的 客户 。 

(1) 数据 挖掘 从 数据 仓库 中 挖掘 的 信息 

数据 挖掘 应 用 于 数据 仓库 后 ,能 挖掘 更 深层 次 上 的 信息 。 如 ， 

”哪些 商品 一 起 销售 好 ? 〈 利 用 关联 分 析 ) 

。 偏爱 某 类 商品 的 客户 特征 是 什么 ? (利用 聚 类 分 析 ) 

。 还 有 哪些 客户 具有 上 述 特 征 ?( 利 用 类 比分 析 ) 

。 哪些 商业 事务 处 理 可 能 有 欺诈 性 ? (利用 神经 网 络 ) 

。 高 价值 客户 的 共同 点 是 什么 7 (利用 分 类 分 析 ) 

典型 的 例子 是 通过 数据 挖掘 对 高 价值 客户 以 及 可 能 离开 的 客户 进行 挖掘 ,得 出 它们 的 
特征 ,这 样 就 让 公司 作出 决策 ,达到 保留 这 些 高 价值 的 客户 和 争取 可 能 离开 的 客户 ,从 而 提 
高 公司 的 利润 。 

(2) 数据 仓库 为 数据 挖掘 提出 了 新 要 求 

@ 数据 挖掘 需要 可 扩展 性 
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数据 挖掘 对 数据 仓库 的 应 用 一 般 使 用 的 数据 是 详细 数据 ,不 用 综合 数据 ,因为 综合 数据 
“平滑 ”了 数据 间 的 差别 ,从 而 无 法 发 现 单个 数据 项 目 之 间 的 微妙 相关 性 。 

数据 仓库 中 的 数据 随 着 时 间 的 推移 ,数据 逐渐 增长 。 这 样 ,数据 挖掘 方法 就 应 该 具有 可 
扩展 性 ,能 够 处 理 递 增 的 数据 量 。 

@ 数据 挖掘 方法 需要 能 挖掘 多 维 知识 

数据 仓库 中 的 数据 模型 是 多 维 数据 组 织 , 它 不 同 于 数据 库 的 二 维 数据 组 织 。 数 据 挖掘 
应 用 到 数据 仓库 时 需要 能 挖掘 多 维 数 据 知 识 。 

例如 ,对 数据 库 的 关联 分 析 只 能 得 到 同一 个 商品 维 中 不 同 商品 之 间 的 关联 关系 。 到 数 
据 仓库 中 的 关联 分 析 就 应 该 能 对 多 维 数据 寻找 它们 的 关联 关系 , 即 除 不 同 商品 的 关联 外 ,还 
要 找 出 商品 与 商店 或 时 间 等 不 同 维 之 间 的 关联 关系 。 


1.3.2 基于 数据 仓库 的 决策 支持 系统 


在 建立 数据 仓库 之 前 ,利用 数据 库 完 成 决策 分 析 时 ,由 于 决策 者 不 能 明确 表明 到 底 需 要 
什么 具体 数据 来 帮助 辅助 决策 ,一 开始 会 提出 一 个 粗糙 的 需求 ,由 IT( 信 息 技术 ) 人 员 编 写 
专门 程序 从 数据 库 中 抽取 数据 ,形成 所 需 的 报告 。 决 策 者 根据 这 个 报告 会 马上 想起 需要 更 
多 的 数据 ,需要 提供 新 的 报告 。IT 人 员 重 新 编写 程序 抽取 新 的 数据 ,完成 新 的 报告 。 

由 于 决策 的 不 明确 性 ,对 数据 抽取 的 多 样 性 ,包括 不 同时 间 的 抽取 以 及 不 同 角度 的 抽 
取 ,形成 的 分 析 报告 会 造成 不 同 的 结果 ,甚至 于 矛盾 的 结果 。 例 如 ,一 个 IT 人 员 提 出 的 分 
析 报 告 说 企业 的 业绩 下 降 了 15%, 另 一 个 IT 人 员 提 出 的 分 析 报 告 说 企业 的 业绩 上 升 了 
10% 。 这 两 个 结论 不 但 不 吻合 ,而 且 相 去 甚 远 。 这 让 决策 者 很 难 相信 报告 结论 的 正确 性 ,也 
无 法 帮助 决策 。 

从 而 认识 到 在 数据 库 的 基础 上 编写 专门 的 程序 ,获取 信息 辅助 决策 是 不 成 功 的 。 人 们 
把 这 种 方式 建立 的 决策 支持 系统 认为 是 失败 的 。 

为 了 建立 随时 提取 销售 量 最 好 的 产品 名 单 ;告诉 出 现 问题 的 地 区 ;并 能 分 析出 现 问 题 的 
原因 ;对 比 各 种 数据 ;显示 最 大 的 利润 等 辅助 决策 信息 的 决策 支持 系统 ,数据 仓库 成 了 惟一 
可 行 的 解决 方案 。 

数据 仓库 对 整个 企业 各 部 门 的 数据 进行 统一 和 综合 ,这 实际 上 是 决策 支持 的 一 次 革新 。 
企业 可 以 用 它 来 取得 各 个 重要 方面 的 数据 与 分 析 结 果 。 例 如 商品 利润 ,市 场 分 析 和 风险 管 
理 等 ,从 而 改善 企业 的 自身 管理 。 举 例 来 说 ,数据 仓库 用 户 可 以 立即 得 到 其 单位 当前 所 处 地 
位 的 准确 报告 ,了 解 其 公司 面临 的 风险 ,包括 各 项 事务 及 整个 企业 所 有 业务 面临 的 风险 ,并 
对 市 场 和 法 规 条 例 需 要 迅速 作出 反应 。 

数据 仓库 的 决策 支持 功能 有 : 

(1) 对 当前 和 历史 数据 完成 查询 和 报表 处 理 ; 

(2) 可 以 用 不 同方 法 进行 “如 果 , 将 怎样 (what-if) ”分析 ; 

(3) 可 以 查询 细节 ,查询 综合 ,并 能 深入 追踪 查询 处 理 ; 

(4) 认 清 过 去 的 发 展 趋势 ,并 将 其 应 用 于 对 未 来 结果 的 分 析 。 

数据 仓库 是 为 辅助 决策 而 建立 的 , 单 依靠 数据 仓库 达到 辅助 决策 的 能 力 是 有 限 的 。 数 
据 仓 库 中 有 大 量 的 综合 数据 ,这 些 数据 为 决策 者 提供 了 综合 信息 , 即 反映 企业 或 部 门 的 宏观 
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状况 。 数 据 仓库 保存 大 量 历史 数据 ,这 些 数 据 通过 预测 模型 计算 可 以 得 到 预测 信息 。 

综合 信息 与 预测 信息 是 数据 仓库 所 获得 的 辅助 决策 信息 。 

数据 仓库 中 增加 联机 分 析 处 理 和 数据 挖掘 等 分 析 工 具 , 能 较 大 地 提高 辅助 决策 能 力 。 
联机 分 析 处 理 对 数据 仓库 中 的 数据 进行 多 维 数据 分 析 , 即 多 维 数据 的 切片 . 切 块 . 旋 转 、 钻 取 
等 ,只 有 通过 分 析 更 详细 的 数据 ,才能 得 到 更 深层 中 的 信息 和 知识 。 如 节假日 销售 的 影响 ， 
某 日 的 促销 活动 的 影响 等 ,这 些 信 息 在 综合 数据 中 是 反映 不 出 来 的 。 数 据 挖掘 技术 能 获取 
关联 知识 ,时序 知识 . 聚 类 知识 .分 类 知识 等 。 数 据 挖掘 技术 对 数据 仓库 中 的 数据 进行 挖掘， 
才能 获取 更 多 的 辅助 决策 信息 和 知识 。 

数据 仓库 和 联机 分 析 处 理 及 数据 挖掘 结合 的 决策 支持 系统 ,是 以 数据 仓库 为 基础 的 , 称 
为 基于 数据 仓库 的 决策 支持 系统 ,其 结构 图 如 图 1. 1 所 示 。 


决策 用 户 决策 信息 
知识 | 综合 信息 | 分 析 信 息 
4 
| 联机 分 析 处 理 
了 
数据 控 提 i 
1 
基本 数据 元 数据 
1 
一 历史 数据 数据 仓库 


图 1.1 基于 数据 仓库 的 决策 支持 系统 结构 


概括 地 说 : 基于 数据 仓库 的 决策 支持 系统 是 从 数据 仓库 的 数据 中 获取 辅助 决策 的 信息 
和 知识 ,为 决策 提供 支持 。 

基于 数据 仓库 的 决策 支持 系统 区 别 于 20 世纪 80 年 代 出 现 的 基于 模型 的 决策 支持 系统 
和 20 世纪 90 年 代 兴 起 的 智能 决策 支持 系统 。 把 基于 模型 和 知识 的 智能 决策 支持 系统 称 为 
传统 的 决策 支持 系统 ,而 把 基于 数据 仓库 的 决策 支持 系统 称 为 新 决策 支持 系统 。 


1.3.3 数据 仓库 与 商业 智能 


1， 商业 智能 的 概念 


商业 智能 是 20 世纪 90 年 代 中 期 提出 的 。 商 业 智 能 以 数据 仓库 为 基础 ,通过 联机 分 析 
处 理 和 数据 挖掘 技术 帮助 企业 领导 者 针对 市 场 变化 的 环境 ,作出 快速 准确 的 决策 。 
商业 智能 与 新 决策 支持 系统 从 组 成 和 目标 来 看 是 一 致 的 。 但 是 ,商业 智能 是 一 种 技术 ， 
新 决策 支持 系统 是 解决 实际 决策 问题 的 一 个 系统 。 可 以 理解 为 : 新 决策 支持 系统 是 利用 商 
业 智 能 技术 来 解决 实际 决策 问题 的 系统 。 

数据 仓库 ,联机 分 析 处 理 与 数据 挖掘 组 成 的 商业 智能 所 体现 的 智能 行为 在 于 ,能 够 解决 
市 场 环 境 中 随机 变化 的 决策 问题 。 由 于 市 场 千变万化 ,每 次 需要 解决 的 决策 问题 都 不 相同 。 
这 种 解决 随机 出 现 的 问题 需要 利用 智能 的 手段 。 商 业 智能 所 提供 的 智能 手段 表现 为 联机 分 
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析 处 理 的 任意 切片 . 切 块 和 钻 取 ,以 及 利用 数据 挖掘 技术 所 获得 的 知识 。 
2. 商业 智能 辅助 制定 更 好 更 快 的 决策 


公司 需要 制定 的 决策 有 两 类 : 由 高 层 管理 者 制定 宏观 的 战略 决策 ;基层 人 员 在 日 常事 
务 中 制定 决策 。 战 略 决策 有 : 投资 哪个 项 目 ? 哪些 业务 需要 分 离 还 是 合并 ? 制定 销售 策略 
等 。 事 务 决策 有 : 销售 员 决 定 是 否 给 一 个 客户 折扣 ;生产 经 理 决 定 是 否 投产 一 个 新 产品 以 
满足 客户 需求 ;市场 营销 专家 决定 是 否 要 进行 新 一 轮 的 直接 邮购 活动 ;采购 经 理 决 定 是 否 买 
更 多 的 材料 等 。 这 些 事务 决策 只 具有 “战术 ”意义 ,不 会 影响 到 业务 运作 的 基础 ,从 总 体 效 果 
看 ,其 重要 性 并 不 亚 于 企业 高 级 管理 人 员 作 出 的 重大 决策 ,但 会 直接 影响 企业 的 成 败 。 这 些 
决策 很 少 是 通过 决策 分 析 而 作出 的 ,大 多 靠 的 是 经 验 、 积 累 的 知识 和 惯常 的 做 法 。 提 高 企业 
日 常 工作 中 的 决策 质量 ,将 直接 对 企业 的 成 本 和 营业 收入 产生 影响 。 

商业 智能 改进 企业 决策 过 程 ,表现 如 下 几 个 方面 : 

(1) 信息 共享 

有 了 商业 智能 系统 就 可 以 实现 信息 共享 ,用 户 可 以 迅速 找到 所 需要 的 数据 ,通过 对 数据 
进行 钻 取 分 析 以 达到 目标 。 例 如 , 某 公司 通 过 商业 智能 系统 跟踪 商品 的 质量 管理 ,能 及 时 发 
现 问题 ,而 不 是 一 个 星期 后 查阅 各 种 报告 来 发 现 问题 。 时 间 的 节省 以 及 产品 质量 的 提高 ,不 
仅 降低 了 企业 的 成 本 ,也 给 公司 带 来 了 更 多 的 收入 。 

(2) 实时 反馈 分 析 

商业 智能 的 运用 能 够 使 员工 随时 看 到 工作 进展 程度 ,并 且 了 解 一 个 特定 的 行为 对 现实 
目标 的 效用 。 如 果 员工 们 都 能 看 到 自己 的 行为 如 何 提升 或 者 影响 了 业绩 ,那么 也 就 不 需要 
过 于 复杂 的 激励 体系 了 。 

例如 , 朋 斯 卡 物流 公司 ,司机 的 激励 机 制 与 其 驾驶 表现 ,如 每 英里 的 耗 油 量 和 损耗 程度 
等 成 本 控制 方面 的 因素 相关 联 。 通 过 电子 商业 智能 系统 ,公司 的 主 控 计 算 机 就 能 根据 司机 
出 车 行驶 的 里 程 计算 出 每 加 仑 汽油 能 支持 的 里 程 数 ,然后 再 把 数据 传输 到 数据 仓库 ,员工 们 
通过 数据 仓库 就 可 以 分 析 提 高 绩效 的 可 能 性 , 即 发 现 汽车 保养 或 司机 驾驶 习惯 如 何 调整 来 
达到 业绩 目标 ,提高 业务 水 平 并 创造 更 多 的 价值 。 

(3) 鼓励 用 户 找 出 问题 的 根本 原因 

根据 初步 得 到 的 答案 而 采取 的 行动 可 能 未 必 正 确 , 因 为 初步 的 探究 往往 没有 发 现 根本 
问题 的 所 在 。 要 找 出 根本 原因 就 需要 对 与 成 功 或 失败 相关 的 诸多 因素 进行 深度 分 析 。 

通过 企业 商业 智能 系统 ,能 够 找到 某 部 门 业绩 糟 糕 或 者 出 色 的 根本 原因 ,只 要 不 断 地 追 
问 “ 为 什么 ? 为 什么 ?” 这 个 过 程 可 能 是 从 分 析 一 个 报告 开始 ,比如 每 季度 的 销售 情况 ,每 个 
答案 引出 一 个 新 间 题 ,采取 钻 取 或 分 析 方法 ,就 能 把 最 根本 的 原因 找 出 来 。 例 如 ,通过 企业 
商业 智能 系统 , 制 衣 商 发 现 他 们 推出 的 市 场 促销 活动 效果 不 理想 。 在 分 析 诸 多 数据 后 , 制 衣 
商 开 始 把 价格 跟 市 场 需求 进行 灵活 挂钩 。 结 果 , 该 制 衣 商 减少 了 存货 时 间 ,提高 了 存货 管理 
的 效率 ,营运 资本 销售、 利润 等 几 项 主要 业绩 指标 也 明显 好 转 。 

(4) 使 用 主动 智能 

在 数据 仓库 中 设 定 预警 机 制 ,一 旦 出 现 超过 预警 条 件 的 数据 ,就 自动 通过 各 种 设备 , 比 
如 电子 邮件 、 传 呼 .手机 等 通知 用 户 。 这 种 主动 智能 使 用 户 及 时 决断 ,并 采取 相应 措施 。 
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(5) 实时 智能 


企业 采用 真正 的 实时 智能 ,将 大 大 提高 运营 效率 .降低 成 本 、 提 高 服务 质量 。 例 如 朋 斯 
卡 物流 公司 认识 到 需要 一 个 商业 智能 系统 来 实时 监控 和 智能 管理 运输 及 物流 业务 。 该 系统 
掌握 了 很 多 信息 ,把 货物 运载 量 维持 在 一 个 最 高 的 水 平 ,帮助 客户 更 快 地 把 货物 从 A 地 送 
。 企 业 商业 智能 系统 能 实时 跟踪 卡车 的 货物 装载 量 。 如 果 一 辆 卡车 的 装载 量 只 有 
一 半 , 公 司 根据 商业 智能 系统 发 出 指令 让 该 车 调整 路 线 ,再 装载 一 些 货物 。 这 样 该 系统 使 公 
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司 的 所 有 营业 收入 上 升 了 很 多 。 
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习 题 


.数据库 与 数据 仓库 的 本 质 差别 是 什么 ? 

. 从 数据 库 发 展 到 数据 仓库 的 原因 是 什么 ? 

. 举例 说 明 数 据 库 与 数据 仓库 的 不 同 。 

. 说 明 OLTP 概念 和 OLAP 概念 。 

.OLTP 如 何在 网 络 数据 库 上 进行 事务 处 理 ? 

. 说 明 OLTP 与 OLAP 的 主要 区 别 。 

. 数据 库 中 数据 字典 包括 哪些 内 容 ? 

. 元 数据 的 定义 是 什么 ? 

. 元 数据 与 数据 字典 的 关系 是 什么 ? 

. 数据 仓库 的 定义 是 什么 ? 

. 数据 仓库 的 特点 有 哪些 ? 

. 说 明 机 器 学 习 如 何 形成 人 工 智 能 的 学 科 方 向 。 

. 说 明 数据 挖掘 的 含义 。 

. OLAP 多 维 分 析 如 何 辅助 决策 ? 举例 说 明 。 

. 数据 挖掘 与 OLAP 有 什么 不 同 ? 

. 通过 例子 说 明 统 计 学 的 价值 。 

. 说 明 统计 学 应 用 于 数据 挖掘 中 所 包含 的 内 容 。 

. 说 明 统计 学 与 数据 挖掘 的 不 同 。 

. 说 明 数据 仓库 与 数据 挖掘 的 区 别 与 联系 。 

. 数据 挖掘 应 用 于 数据 库 与 数据 挖掘 应 用 于 数据 仓库 有 什么 不 同 ? 
. 举例 说 明 数 据 挖掘 从 数据 仓库 中 挖掘 的 信息 有 哪些 ? 

. 数据 仓库 为 数据 挖掘 提出 了 哪些 新 要 求 ? 

. 数据 仓库 与 联机 分 析 处 理 .数据 挖掘 在 决策 支持 方面 有 什么 不 同 ? 
. 基于 数据 仓库 的 决策 支持 系统 的 组 成 是 什么 ? 

. 画 出 基于 数据 仓库 的 决策 支持 系统 结构 图 。 

. 说 明基 于 数据 仓库 的 决策 支持 系统 与 传统 决策 支持 系统 有 什么 区 别 。 
. 商业 智能 概念 是 什么 ? 

. 如 何 理解 商业 智能 与 基于 数据 仓库 的 决策 支持 系统 的 区 别 和 联系 ? 
. 商业 智能 在 哪些 方面 改进 企业 决策 过 程 ? 
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2.1 数据 仓库 结构 体系 


2.1.1 数据 仓库 结构 


数据 仓库 是 在 原 有 关系 型 数据 库 基础 上 发 展 形成 的 ,但 不 同 于 数据 库 系统 的 组 织 结 构 
形式 , 它 从 原 有 的 业务 数据 库 中 获得 的 数据 形成 当前 基本 数据 层 ,经 过 综合 后 形成 轻 度 综合 
数据 层 , 轻 度 综合 数据 再 经 过 综合 后 形成 高 度 综合 数据 层 。W. H. Inmon 在 (建立 数据 仓 
库 ) 一 书 中 给 出 数据 仓库 的 结构 如 图 2. 1 所 示 。 数 据 仓 库 结 构 包 括 当 前 基本 数据 (current 
detail data) ,历史 基本 数据 (older detail data) 、 轻 度 综合 数据 (lightly summarized data) 、 高 
度 综合 数据 (highly summarized data) 和 元 数据 。 


高 度 综合 数据 层 


轻 度 综合 数据 层 


江 泛 时 | 


当前 基本 数据 层 


历史 基本 数据 层 
图 2.1 数据 仓库 结构 图 


当前 基本 数据 是 最 近 时 期 的 业务 数据 ,是 数据 仓库 用 户 最 感 兴趣 的 部 分 ,数据 量 大 。 当 
前 基本 数据 随时 间 的 推移 ,由 数据 仓库 的 时 间 控 制 机 制 转 为 历史 基本 数据 ,一 般 被 转 存 于 介 
质 中 ,如 磁带 等 。 轻 度 综合 数据 是 从 当前 基本 数据 中 提取 出 来 的 ,设计 这 层 数 据 结构 时 会 遇 
到 “综合 处 理 数据 的 时 间 段 选取 ,综合 数据 包含 哪些 数据 属性 (attributes) 和 内 容 (con- 
tents)” 等 问题 。 最 高 一 层 是 高 度 综合 数据 层 , 这 一 层 的 数据 十 分 精练 ,是 一 种 准 决策 数据 。 

整个 数据 仓库 的 组 织 结构 是 由 元 数据 来 组 织 的 ,不 包含 任何 业务 数据 库 中 的 实际 数据 
信息 。 元 数据 在 数据 仓库 中 扮演 了 重要 的 角色 ,包括 如 下 信息 : 数据 仓库 的 目录 信息 ;数据 
从 业务 环境 向 数据 仓库 环境 转换 时 的 目录 内 容 ; 指 导 从 当前 基本 数据 到 轻 度 综合 数据 ,以 及 
轻 度 综合 数据 到 高 度 综合 数据 的 综合 算法 的 选择 。 

在 数据 库 中 只 存储 当前 的 详细 数据 。 而 数据 仓库 除 存储 按 主题 组 织 起 来 的 当前 详细 数 
据 外 ,还 需要 存储 综合 数据 ,这 是 为 适应 决策 需求 而 增加 的 。 在 数据 库 中 需要 得 到 综合 数据 
时 ,采用 临时 编制 程序 对 详细 数据 进行 综合 。 在 数据 仓库 中 并 不 采取 临时 计算 的 方式 得 到 
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综合 数据 ,而 是 在 用 户 提出 需要 综合 数据 之 前 ,就 预先 将 可 能 需要 的 综合 数据 计算 好 , 存 人 
综合 数据 层 中 ,这 种 综合 数据 层 在 用 户 查询 时 ,能 迅速 提供 给 用 户 。 为 此 ,在 建 数据 仓库 时 ， 
要 分 析 好 各 类 用 户 可 能 需要 的 哪些 综合 数据 ,并 将 这 些 综合 数据 都 存在 综合 数据 层 中 。 

综合 数据 与 详细 数据 是 不 同 * 粒 度 ” 的 数据 。 粒 度 是 指数 据 仓库 的 数据 单元 中 保存 数据 
的 细 化 或 综合 程度 的 级 别 。 细 化 程度 越 详 细 ,粒度 级 就 越 低 。 

不 同 粒度 的 数据 的 存储 数据 量 差距 很 大 。 例 如 ,在 低 粒度 级 (详细 数据 ) 上 ,每 次 电话 都 
详细 记录 下 来 ,一 个 月 每 位 顾客 平均 有 200 条 记录 ,总 共 需 要 40 000 个 字 节 。 在 高 粒度 级 
(综合 数据 ) ,每 位 顾客 只 有 一 个 记录 ,大 约 只 需要 200 个 字 节 。 

高 粒度 级 不 仅 只 需要 少 得 多 的 字 节 存放 数据 ,而 且 只 需要 较 少 的 索引 项 。 这 样 的 数据 
存储 效率 较 高 。 

在 数据 仓库 环境 中 ,粒度 之 所 以 是 设计 数据 仓库 的 一 个 重要 方面 ,不 只 因为 它 影响 了 存 
放 在 数据 仓库 中 的 数据 量 的 大 小 , 它 同 时 也 影响 数据 仓库 所 能 回答 的 查询 类 型 。 当 提高 数 
据 粒 度 时 (综合 数据 ) ,数据 所 能 回答 查询 的 能 力 将 会 随 之 降低 。 而 很 小 粒度 的 数据 (详细 数 
据 ) 可 以 回答 任何 问题 ,但 在 高 粒度 的 数据 上 (综合 数据 ), 可 以 回答 的 问题 就 很 少 。 

例如 ,提出 如 下 查询 :“ 张 三 上 星期 是 否 给 他 在 外 地 的 女友 打 了 电话 ?在 低 粒度 级 上 这 
个 问题 是 可 以 回答 的 ,这 需要 查阅 大 量 的 记录 ,该 查询 最 终 总 是 可 以 确定 的 。 然 而 在 高 粒度 
级 上 就 无 法 明确 回答 这 个 问题 ,因为 在 高 粒度 级 上 只 存放 有 张 三 打 出 电话 总 数 ,不 能 确定 其 
中 是 否 有 一 个 电话 是 打 往外 地 女友 的 。 

但 是 ,在 进行 决策 分 析 时 ,很 少 对 单个 事件 进行 查询 ,通常 是 针对 某 个 数据 集合 进行 处 
理 的 (这 在 数据 仓库 环境 中 是 常见 的 ) 。 例 如 ,提出 综合 查询 :“ 上 个 月 人 们 从 广州 打出 的 长 
途 电话 平均 多 少 个 ?” 在 决策 分 析 中 ,这 种 类 型 的 查询 非常 多 。 该 查询 既 可 以 在 高 粒度 上 也 
可 以 在 低 粒度 上 进行 处 理 。 但 在 回答 这 个 问题 时 ,在 不 同 粒度 级 上 所 使 用 的 资源 具有 相当 
大 的 差别 。 在 低 粒 度 级 上 回答 这 个 问题 需要 查询 每 一 个 记录 ,使 用 大 量 的 资源 来 回答 这 个 
问题 。 在 高 粒度 级 上 ,包括 了 足够 的 细节 (如 包括 每 个 顾客 打出 长 途 电话 的 次 数 ) ,使 用 高 粒 
度 级 数据 的 效率 就 会 高 很 多 。 例 如 ,在 轻 度 综合 级 上 电话 记录 如 下 ,将 能 使 用 较 小 的 资源 回 
答 以 上 问题 : 

三 月 份 , 李 四 ,电话 数量 : 46 个 ,电话 平均 长 度 : 10 分 钟 ,长 途 电话 数 : 12 个 。 

在 数据 仓库 中 存储 多 种 粒度 数据 (详细 层 , 轻 度 综合 层 、 高 度 综合 层 等 ) 是 为 提高 决策 分 
析 的 效果 。 大 部 分 决策 分 析 处 理 是 针对 存储 效率 高 的 轻 度 综 合 层 数据 进行 的 。 当 需要 分 析 
更 低 的 细节 级 数据 ( 占 5% 或 者 更 少 的 可 能 ) 时 ,可 以 到 详细 数据 层 数据 上 进行 。 在 详细 数 
据 层 上 访问 数据 是 昂贵 的 复杂 的 。 


2.1.2 数据 集 市 及 其 结构 


数据 仓库 是 企业 级 的 ,能 为 整个 企业 各 个 部 门 的 运行 提供 决策 支持 手段 ;而 数据 集 市 则 
是 部 门 级 的 ,一 般 只 能 为 某 个 局 部 范围 内 的 管理 人 员 服 务 ,因此 也 称 为 部 门 级 数据 仓库 (de- 
partmental data warehouse) 。 
|: 


1. 数据 集 市 (data marts) 的 产生 


数据 仓库 工作 范围 和 成 本 常常 是 巨大 的 。 信 息 技术 部 门 必须 对 所 有 的 用 户 并 以 全 企业 
的 眼光 对 待 任何 一 次 决策 分 析 。 这 样 ,就 形成 了 代价 很 高 的 .时 间 较 长 的 大 项 目 。 

人 们 认识 到 了 提供 更 紧密 集成 的 .拥有 完整 图 形 接口 并 且 价格 吸引 人 的 工具 一 一 数据 
集 市 ,就 应 运 产生 。 

目前 ,全 世界 对 数据 仓库 总 投资 的 一 半 以 上 均 集 中 在 数据 集 市 上 。 


2. 数据 集 市 概念 


数据 集 市 是 一 种 更 小 .更 集中 的 数据 仓库 ,为 公司 提供 分 析 商 业 数据 的 一 条 廉价 途径 。 

数据 集 市 是 指 具 有 特定 应 用 的 数据 仓库 ,主要 针对 某 个 具有 战略 意义 的 应 用 或 者 具体 
部 门 级 的 应 用 ,支持 用 户 利用 已 有 的 数据 获得 重要 的 竞争 优势 或 者 找到 进入 新 市 场 的 具体 
解决 方案 。 

数据 集 市 有 两 种 , 即 独 立 的 数据 集 市 (independent data mart) 和 从 属 的 数据 集 市 (de- 


pendent data mart) 。 
3. 数据 集 市 与 数据 仓库 的 差别 


(1) 数据 仓库 是 基于 整个 企业 的 数据 模型 建立 的 , 它 面向 企业 范围 内 的 主题 。 而 数据 
集 市 是 按照 某 一 特定 部 门 的 数据 模型 建立 的 ,由 于 每 个 部 门 有 自己 特定 的 需求 ,因此 对 数据 
集 市 的 期 望 也 不 一 样 。 

(2) 部 门 的 主题 与 企业 的 主题 之 间 可 能 存在 关联 ,也 可 能 不 存在 关联 。 数 据 仓库 中 存 
储 整 个 企业 内 非常 详细 的 数据 ,而 数据 集 市 中 的 数据 的 详细 程度 要 低 一 些 , 包 含 概要 和 累加 
数据 要 多 一 些 。 

(3) 数据 集 市 的 数据 组 织 一 般 采 用 星 型 模型 。 大 型 数据 仓库 的 数据 组 织 , 如 NCR 公司 
采用 第 三 范式 。 


4. 数据 集 市 的 特性 


(1) 规模 是 小 的 ; 

(2) 特定 的 应 用 ; 

(3) 面向 部 门 ; 

(4) 由 业务 部 门 定义 ,设计 和 开发 ; 
(5) 由 业务 部 门 管理 和 维护 ; 

(6) 快速 实现 ; 

(7) 价格 较 低廉 ; 

(8) 投资 快速 回收 ; 

(9) 工具 集 的 紧密 集成 ; 

(10) 更 详细 的 、 预 先 存在 的 数据 仓库 的 摘要 子 集 ; 
(11) 可 升级 到 完整 的 数据 仓库 。 
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5. 两 种 数据 集 市 结构 


(1) 从 属 数据 集 市 

从 属 数据 集 市 的 逻辑 结构 如 图 2. 2 所 示 。 

所 谓 从 属 ,是 指 它 的 数据 直接 来 自 于 中 央 数 据 仓 库 。 显 然 , 这 种 结构 仍 能 保持 数据 的 一 
致 性 。 一 般 为 那些 访问 数据 仓库 十 分 频繁 的 关键 业务 部 门 建立 从 属 的 数据 集 市 ,这 样 可 以 
很 好 地 提高 查询 的 反应 速度 。 


(2) 独立 数据 集 市 
独立 数据 集 市 的 逻辑 结构 如 图 2. 3 所 示 。 
数据 源 
数据 源 
数据 仓库 
从 属 数据 集 市 A 
是 :5 数据 分 析 
图 2.2 “从属 数据 集 市 结构 图 2.3 独立 数据 集 市 结构 


独立 数据 集 市 的 数据 直接 来 源 于 各 生产 系统 。 许 多 企业 在 计划 实施 数据 仓库 时 ,往往 
出 于 投资 方面 的 考虑 ,最 后 建成 独立 数据 集 市 ,用 来 解决 个 别 部 门 比较 迫切 的 决策 问题 。 从 
这 个 意义 上 讲 , 它 和 企业 数据 仓库 除了 在 数据 量 大 小 和 服务 对 象 上 有 所 区 别 外 ,逻辑 结构 并 
无 多 大 区 别 , 这 是 把 数据 集 市 称 为 部 门 数据 仓库 的 主要 原因 。 


6. 关于 数据 集 市 的 误区 


数据 集 市 是 一 个 数据 分 支 子 集 ,可 以 从 一 个 数据 仓库 中 找到 ,或 者 是 为 支持 一 个 单独 业 
务 单元 的 决策 支持 而 建立 的 。 甚 至 企业 的 大 部 分 战略 可 以 由 数据 集 市 来 完成 ,在 这 个 过 程 
中 制定 行动 方针 。 但 是 ,在 建立 一 个 数据 集 市 之 前 ,企业 应 该 知道 几 个 关于 数据 集 市 的 不 切 
实际 的 看 法 。 

(1) 单纯 用 数据 量 大 小 来 区 分 数据 集 市 和 数据 仓库 

用 大 小 来 判断 一 个 企业 ,是 实施 数据 仓库 还 是 数据 集 市 的 做 法 是 很 片面 的 。 尺 寸 大 小 
不 是 数据 集 市 的 本 质 特征 ,真正 的 问题 在 于 ,数据 集 市 ( 它 可 能 是 一 个 数据 仓库 的 子 集 ) 的 数 
据 模型 一 定 是 满足 应 用 的 特定 需求 的 。 

(2) 简单 地 理解 数据 集 市 容易 建立 

数据 集 市 的 确 比 数据 仓库 的 复杂 性 程度 低 一 些 , 因 为 它 只 针对 某 一 需要 解决 的 特定 的 
商业 问题 ,但 是 围绕 数据 获取 的 很 多 复杂 问题 并 没有 减少 。 

数据 集 市 要 从 多 个 数据 源 中 提取 数据 ,这 个 过 程 很 耗 时 ,因为 这 个 过 程 与 建立 一 个 数据 
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仓库 一 样 ,需要 相同 的 计划 和 管理 ,并 且 需 要 把 数据 模型 化 。 

(3) 数据 集 市 很 容易 升级 成 数据 仓库 
事实 上 ,数据 集 市 针对 特殊 的 业务 需要 ,不 可 能 很 容易 地 伸缩 。 如 果 没 有 事先 的 扩展 数 
据 模 型 ,追加 数据 是 非常 困难 的 。 例 如 ,一 个 数据 集 市 可 以 很 快 找到 最 畅销 款式 的 鞋 的 销售 
数字 ,为 了 增加 关于 这 种 鞋 的 信息 ,比如 ,新 顾客 的 百分比 ,就 需要 新 的 数据 模型 ,这 种 数据 
集 市 的 扩充 是 困难 的 。 


2.1.3 数据 仓库 系统 结构 


数据 仓库 系统 由 数据 仓库 、 仓 库 管 理 和 分 析 工 具 3 部 分 组 成 。 其 结构 形式 如 图 2. 4 
所 示 。 


FE 一 一 数据 建 模 查询 工具 
关系 数据 库 综合 数据 
抽取 、 转 换 
装载 (ETL) OLAP 工 具 
数据 文件 [当前 数据 | 
元 数据 DM 工具 
历史 数据 
其 他 数据 系统 管理 CIS 工 具 
源 数据 仓库 管理 数据 仓库 分 析 工具 


图 2.4 数据 仓库 系统 结构 图 


数据 仓库 的 数据 来 源 于 多 个 数据 源 。 源 数据 包括 企业 内 部 数据 ,市 场 调查 报告 以 及 各 
种 文档 之 类 的 外 部 数据 。 


1. 仓库 管理 


仓库 管理 包括 数据 建 模 ,数据 抽取 转换、 装载 (ETL) ,元 数据 ,系统 管理 4 部 分 。 

(1) 数据 建 模 

数据 建 模 是 建立 数据 仓库 的 数据 模型 (data model) 。 数 据 模 型 是 现实 世界 数据 特征 的 
抽象 。 数 据 模型 一 般 包 括 数据 结构 和 数据 操作 。 数 据 结构 包括 数据 类 型 .内 容 数据 之 间 的 
关系 , 它 是 数据 模型 的 静态 描述 。 数 据 操作 是 对 数据 仓库 中 数据 所 允许 的 操作 ,如 检索 、 计 
算 等 , 它 是 数据 模型 的 动态 描述 。 

数据 仓库 的 数据 模型 , 按 数据 仓库 设计 过 程 分 为 概念 数据 模型 .逻辑 数据 模型 和 物理 数 
据 模型 。 

数据 仓库 的 数据 模型 不 同 于 数据 库 的 数据 模型 在 于 : 

@ 数据 仓库 的 数据 模型 的 数据 只 为 决策 分 析 用 ,不 包含 那些 纯 事 务 处 理 的 数据 ; 

@ 数据 仓库 的 数据 模型 中 增加 了 时 间 属 性 的 代码 数据 ; 

@ 数据 仓库 的 数据 模型 中 增加 了 一 些 导 出 数据 ,如 综合 数据 等 。 
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数据 仓库 的 数据 建 模 是 使 建立 的 物理 数据 模型 能 适应 决策 用 户 使 用 的 逻辑 数据 模型 。 

(2) 数据 抽取 、 转 换 、 装 载 (ETIL) 

数据 仓库 中 的 数据 是 通过 在 源 数 据 中 抽取 数据 , 按 数据 仓库 的 逻辑 数据 模型 的 要 求 进 
行 数据 转换 ,再 按 物理 数据 模型 的 要 求 装 载 到 数据 仓库 中 去 。 

数据 抽取 转换、 装载 是 建立 数据 仓库 的 重要 步骤 ,也 是 一 项 烦琐 、 耗 时 且 费 劲 的 工作 ， 
需要 花费 开发 数据 仓库 70% 的 工作 量 。 

(3) 元 数据 

元 数据 在 数据 仓库 中 扮演 了 一 个 新 的 重要 角色 。 元 数据 不 仅 是 数据 仓库 的 字典 ,而 且 
要 指导 数据 的 抽取 、 转 换 、 装 载 工作 ,还 要 指导 用 户 使 用 数据 仓库 。 

(4) 系统 管理 

系统 管理 包括 数据 管理 .性 能 监控 ,存储 器 管理 以 及 安全 管理 等 。 
数据 管理 包括 为 适应 竞争 的 变化 业务 需求 更 新 数据 清理 脏 数据 .删除 休眠 数据 等 
王 作 。 
系统 对 性 能 的 监控 是 搜集 和 分 析 系 统 性 能 的 信息 ,确定 系统 是 否 达 到 了 所 确定 的 服 
务 水 平 。 
存储 器 管理 是 使 数据 仓库 的 存储 器 要 适应 数据 量 的 增长 需求 ,实现 用 户 的 快速 
。 安全 管理 是 保证 应 用 程序 的 安全 以 及 数据 库 访 问 的 安全 。 
2. 分 析 工 具 


由 于 数据 仓库 的 数据 量 大 ,必须 有 一 套 功 能 很 强 的 分 析 工 具 集 来 实现 从 数据 仓库 中 提 
供 辅 助 决策 的 信息 ,完成 决策 支持 系统 的 各 种 要 求 。 

(1) 查询 工具 

数据 仓库 的 查询 不 是 对 记录 级 数据 的 查询 ,而 是 对 分 析 要 求 的 查询 。 以 图 形 化 方式 展 
示 数 据 ,可 以 帮助 了 解数 据 的 结构 .关系 以 及 动态 性 。 

(2) 多 维 数据 分 析 工 具 (OLAP 工具 ) 

通过 对 多 维 数据 进行 快速 一致 和 交互 性 的 存 取 ,这 样 便利 用 户 对 数据 进行 深入 的 分 析 
和 观察 。 

多 维 数据 的 每 一 维 代表 对 数据 的 一 个 特定 的 观察 视角 ,如 时 间 、 地 域 .业务 等 。 

(3) 数据 挖掘 工具 (DM 工具 ) 

从 大 量 数据 中 挖掘 具有 规律 性 的 知识 ,需要 利用 数据 挖掘 中 的 各 种 不 同 算法 。 

(4) 客户 /服务 器 ( client/server,C/S) 工 具 

数据 仓库 一 般 都 是 以 服务 器 (server) 形 式 在 网 络 环境 下 提供 服务 ,能 对 多 个 客户 (cli- 
ent) 同 时 提供 服务 。 


2.1.4 数据 仓库 的 运行 结构 


数据 仓库 应 用 是 一 个 典型 的 客户 /服务 器 (C/S) 结 构 形 式 ,如 图 2. 5 所 示 。 数 据 仓 库 采 
用 服务 器 结构 ,客户 端 所 做 的 工作 包括 客户 交互 .格式 化 查询 ,结果 显示 、 报 表 生 成 等 。 服 务 
器 端 完成 各 种 辅助 决策 的 SQL 查询 .复杂 的 计算 和 各 类 综合 功能 等 。 
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数据 仓库 
客户 端 服务 器 


图 2.5 数据 仓库 的 C/S 结构 


现在 , 越 来 越 普通 的 一 种 形式 是 三 层 C/S 结构 形式 , 即 在 客户 端 与 数据 仓库 服务 器 之 
间 增 加 一 个 多 维 数据 分 析 (OLAP) 服 务 器 ,如 图 2.6 所 示 。 


OLAP 数据 仓库 
客户 跨 服务 器 服务 器 


图 2.6 数据 仓库 的 三 层 C/S 结构 


OLAP 服务 器 将 加 强 和 规范 化 决策 支持 的 服务 工作 ,集中 和 简化 了 数据 仓库 服务 器 的 
部 分 工作 , 即 OLAP 服务 器 从 数据 仓库 服务 器 中 抽取 数据 ,在 OLAP 服务 器 中 转换 成 客户 
端 用 户 要 求 的 多 维 视图 ,并 进行 多 维 数据 分 析 ,将 分 析 结 果 传 送 给 客户 端 。 这 种 结构 形式 工 
作 效 率 更 高 。 


2.2 数据 仓库 的 数据 模型 


数据 仓库 不 同 于 数据 库 。 数 据 仓 库 的 逻辑 数据 模型 是 多 维 结构 的 数据 视图 ,也 称 多 维 
数据 模型 , 见 图 2.7。 
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日 期 维 
图 2.7 数据 仓库 的 数据 模型 


在 多 维 数据 模型 中 ,主要 数据 是 数字 实际 值 , 如 销售 量 .投资 额 , 收 入 等 。 而 这 些 数字 实 
际 值 是 依赖 于 一 组 “ 维 ” 的 ,这 些 维 提供 了 实际 值 的 上 下 文 关系 。 例 如 销售 量 与 城市 、 商 品名 
称 、 销 售 时 间 有 关 , 这 些 相关 的 维 惟一 决定 了 这 个 销售 实际 值 。 因 此 ,多 维 数据 视图 就 是 这 
些 维 构成 的 多 维 空间 中 ,存放 着 数字 实际 值 。 图 中 的 小 格 内 存储 的 数据 我 们 可 以 假设 为 商 
品 的 销售 量 。 

多 维 数据 模型 的 另 一 个 特点 是 对 一 个 或 多 个 维 所 完成 的 集合 运算 。 例 如 对 总 销售 量 按 
城市 进行 计算 和 排序 。 这 些 运 算 还 包括 对 于 同样 维 的 实际 值 进行 比较 (如 销售 与 预算 ) 。 一 

i 


般 来 说 ,时 间 维 是 一 个 有 特殊 意义 的 维 , 它 对 决策 中 趋势 分 析 很 重要 。 
对 于 逻辑 数据 模型 ,可 以 使 用 不 同 的 存储 机 制 和 表示 模式 来 实现 多 维 数据 模型 。 目 前 ， 
使 用 的 多 维 数据 模型 主要 有 星 型 模型 .雪花 模型 . 星 网 模型 .第 三 范式 等 。 


2.2.1 星 型 模型 


大 多 数 的 数据 仓库 都 采用 “ 星 型 模型 "*。 星 型 模型 是 由 “事实 表 ”( 大 表 ) 以 及 多 个 “ 维 表 ” 
(小 表 ) 所 组 成 。“ 事 实 表 ” 中 存放 大 量 关于 企业 的 事实 数据 (数字 实际 值 )。 对 象 (元 组 ) 个 数 
通常 都 很 大 ,而 且 非 规范 化 程度 很 高 。 例 如 ,多 个 时 期 的 数据 可 能 会 出 现在 同一 个 表 中 。 
“ 维 表 ” 中 存放 描述 性 数据 , 维 表 是 围绕 事实 表 建 立 的 较 小 的 表 。 

一 个 星 型 数据 模型 实例 如 图 2. 8 所 示 。 


订货 表 事实 表 
订单 号 订单 号 
订货 日 期 销售 员 号 

客户 号 
客户 表 产品 
客户 号 日 期 标识 
客户 名 称 地 区 名 称 

客户 地 址 / 数量 
总 价 
销售 员 表 
销售 员 号 地 区 表 
销售 员 姓 名 地 区 名 称 
城市 省 别 


图 2.8 星 型 数据 模型 实例 


事实 表 有 大 量 的 行 (元 组 ) ,然而 维 表 相 对 来 说 有 较 少 的 行 (元 组 )。 星 型 模型 的 存储 情 
况 示 意图 如 图 2.9 所 示 。 


产品 表 
日 期 表 
地 区 表 


图 2.9 星 型 模型 数据 存储 情况 示意 图 


星 型 模型 存 取 数 据 速 度 快 ,主要 针对 各 个 维 做 了 大 量 的 预 处 理 , 如 按照 维 进行 预先 的 统 
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计 、 分 类 ,排序 等 ;如 按照 汽车 的 型 号 ,颜色 .代理 商 进行 预先 的 销售 量 统计 ,做 报表 时 速度 会 
很 快 。 

星 型 结构 与 规范 化 的 关系 数据 库 设计 相 比 较 , 存 在 一 些 显著 的 优点 : 星 型 模型 是 非 规 
范 化 的 ,以 增加 存储 空间 代价 ,提高 了 多 维 数据 的 查询 速度 。 而 规范 化 的 关系 数据 库 设计 是 
使 数据 的 宛 余 保 持 在 最 少 ,并 减少 了 当 数据 改变 时 系统 必须 执行 的 动作 。 

星 型 模型 也 有 缺点 : 当 业 务 问 题 发 生变 化 ,原来 的 维 不 能 满足 要 求 时 ,需要 增加 新 的 
维 。 由 于 事实 表 的 主键 由 所 有 的 维 表 的 主键 组 成 ,这 种 维 的 变化 带 来 数据 变化 将 是 非常 复 
杂 ,非常 耗 时 的 。 星 型 模型 的 数据 宛 余 量 很 大 。 


2.2.2 雪花 模型 


雪花 模型 是 对 星 型 模型 的 扩展 ,雪花 模型 对 星 型 模型 的 维 表 进一步 层次 化 ,原来 的 各 维 
表 可 能 被 扩展 为 小 的 事实 表 , 形 成 一 些 局 部 的 "层次 区域。 它 的 优点 是 最 大 限度 地 减少 数 
据 存储 量 ,以 及 把 较 小 的 维 表 联 合 在 一 起 来 改善 查询 性 能 。 

雪花 模型 增加 了 用 户 必须 处 理 的 表 的 数量 ,增加 了 某 些 查询 的 复杂 性 。 但 这 种 方式 可 
以 使 系统 更 进一步 专业 化 和 实用 化 ,同时 降低 了 系统 的 通用 程度 。 前 端 工具 将 用 户 的 需求 
转换 为 雪花 模型 的 物理 模式 ,完成 对 数据 的 查询 。 

在 雪花 模型 中 能 够 定义 多 重 “ 父 类 ” 维 来 描述 某 些 特殊 的 维 表 。 比 如 ,在 时 间 维 上 增加 
了 月 维和 年 维 , 通 过 查看 与 时 间 有 关 的 父 类 维 ,能 够 定义 特殊 的 时 间 统 计 信息 ,如 销售 月 统 
计 、 销 售 年 统计 等 。 

在 图 2. 8 星 型 模型 的 数据 中 ,对 “产品 表 ”、“ 日 期 表 ”“ 地 区 表 ” 进 行 扩展 形成 雪花 模型 
数据 ,如 图 2. 10 所 示 。 使 用 数据 仓库 的 工具 完成 一 些 简 单 的 二 维 或 三 维 查 询 , 既 满足 了 用 
户 对 复杂 的 数据 仓库 查询 的 需求 ,又 能 够 完成 一 些 简 单 查询 功能 而 不 用 访问 过 多 的 数据 。 


订货 表 事实 表 产品 表 目录 表 
订单 号 订单 号 产品 号 产品 目录 
RH | /es 产品 名 称 Lime 

客户 号 产品 目录 

客户 表 产品 号 民 

日 其 标识 
地 区 名 称 日 期 表 月 表 ”年 表 
数量 二 识 月 年 
/加 NE /ls pa 
月 
销售 员 呈 地 区 表 有 
销售 员 姓名 地 区 名 称 - 
城市 省 别 | 和 


图 2.10 雪花 数据 模型 实例 


2.2.3 星 网 模型 
每 个 数据 仓库 都 包含 了 多 个 星 型 模型 的 结构 。 每 一 个 星 型 模型 都 在 事实 表 中 保存 了 一 


些 指 标 ,为 特定 的 目的 服务 。 多 个 相关 的 星 型 模型 通过 相同 的 维 表 连接 起 来 形成 网 状 结构 ， 
称 为 星 网 模型 。 在 大 多 数 星 网 模型 中 ,各 个 事实 表 共 享 的 维 表 是 时 间 维 。 

构造 星 型 模型 有 几 种 情况 : 有 的 是 增加 汇总 事实 表 和 衍生 的 维 表 形 成 星 网 模型 ;有 的 
是 构造 相关 的 事实 表 形成 星 网 模型 。 

例如 ,电话 公司 需要 建立 两 个 事实 表 , 一 个 事实 表 跟 踪 单 独 的 电话 事务 , 它 能 回答 “ 节 假 
日 电话 收益 与 工作 日 电话 收益 的 对 比 情况 ”等 类 问题 ; 另 一 个 事实 表 累 计 用 户 电话 支出 情 
况 , 它 能 回答 * 某 个 用 户 在 某 段 时 间 内 的 电话 余额 ”等 类 问题 。 该 电话 公司 星 网 模型 实例 如 
图 2.11 所 示 。 


时 间 键 
用 户 键 
状态 键 
电话 余额 


图 2.11 电话 公司 星 网 模型 实例 


2.2.4 第 三 范式 


范式 实际 上 是 传统 的 关系 数据 库 的 设计 理论 。 一 个 规范 化 的 关系 模式 应 该 准确 地 反映 
所 描述 的 数据 实体 ,避免 元 余 、 异 常 ( 插 入 异常 .删除 异常 .更 新 异常 ) 等 问题 。 

通常 按照 属性 间 依 赖 情况 来 区 分 关系 规范 化 的 程度 , 现 有 第 一 范式 到 第 五 范式 。 

数据 仓库 可 以 按 第 三 范式 进行 逻辑 数据 建 模 。 它 不 同 于 星 型 模型 ,是 把 事实 表 和 维 表 
的 属性 作为 一 个 实体 都 集中 在 同一 数据 库 表 中 ,或 分 成 多 个 实体 用 多 个 表 来 表示 , 表 按 第 三 
范式 组 织 数据 ,减少 了 维 表 中 的 键 和 不 必要 的 属性 。 

著名 的 NCR 数据 仓库 公司 采用 了 第 三 范式 的 逻辑 数据 模型 。 现 在 有 很 多 大 型 的 企业 
数据 仓库 系统 中 都 同时 采用 了 第 三 范式 和 星 型 模型 , 即 用 第 三 范式 来 描述 数据 仓库 系统 后 
台 的 详细 数据 存储 关系 ,在 此 基础 上 ,再 根据 特定 的 分 析 需 求 建立 适当 的 星 型 模型 ,用 于 刷 
新 OLAP 服务 器 的 立方 体 (cube) ,以 方便 前 端 数据 展现 和 预定 义 的 多 维 分 析 。 

星 型 模型 在 进行 多 维 数据 分 析 时 ,在 不 超过 预定 义 的 维度 范围 内 ,速度 是 很 快 的 ,但 是 
在 超出 了 预定 义 的 维度 ,增加 维度 将 是 很 困难 的 事情 。 

第 三 范式 对 于 海量 数据 (如 TB 级), 且 需要 处 理 大 量 的 动态 业务 分 析 时 ,就 显示 了 它 的 
优势 。 
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2.3 数据 抽取 、 转 换 和 装载 


数据 仓库 的 数据 来 源 于 多 个 数据 源 ,主要 是 企业 内 部 数据 (用 于 企业 的 事务 处 理 , 也 称 
操作 型 数据 ) ,存档 的 历史 数据 ,企业 的 外 部 数据 (本 行业 的 统计 数据 以 及 竞争 者 的 市 场 占有 
率 数据 等 )。 这 些 数 据 源 可 能 是 在 不 同 的 硬件 平台 上 ,使 用 不 同 的 操作 系统 。 源 数据 是 以 不 
同 的 格式 存放 在 不 同 的 数据 库 中 。 

数据 仓库 需要 将 这 些 源 数 据 经 过 抽取 转换 和 装载 的 过 程 ,存储 到 数据 仓库 的 数据 模型 
中 。 可 以 说 ,数据 仓库 的 数据 获取 需要 经 过 抽取 (extraction)、 转 换 (transform) 和 装载 
(load)3 个 过 程 , 即 ETL 过 程 。 

经 过 ETL 过 程 ,将 源 系 统 中 的 数据 改造 成 有 用 的 信息 ,存储 到 数据 仓库 中 。 例 如 ,ETL 
过 程 将 统一 各 源 系 统 中 数据 的 变量 名 称 ,转换 和 集成 所 有 产品 的 销售 情况 数据 ,装载 到 数据 
仓库 的 销售 事实 表 和 相关 维 表 中 。 在 用 户 查 询 时 ,在 事实 表 中 提供 销售 数量 与 金额 的 同时 ， 
在 产品 维度 表 中 提供 产品 目录 ,在 商店 维度 中 提供 商店 名 单 , 在 时 间 维 度 中 提供 日 期 。 这 种 
查询 便利 情况 对 比 和 决策 分 析 。 

ETL 过 程 在 开发 数据 仓库 时 , 占 去 70% 的 工作 量 。ETL 过 程 的 主要 步骤 概括 为 ， 

(1) 决定 数据 仓库 中 需要 的 所 有 的 目标 数据 

(2) 决定 所 有 的 数据 源 ,包括 内 部 和 外 部 的 数据 源 ; 

(3) 准备 从 源 数据 到 目标 数据 的 数据 映射 关系 ; 

(4) 建立 全 面 的 数据 抽取 规则 ; 

(5) 决定 数据 转换 和 清洗 规则 ; 

(6) 为 综合 表 制 定 计划 ; 

(7) 组 织 数据 缓冲 区 域 和 检测 工具 ; 

(8) 为 所 有 的 数据 装载 编写 规程 ; 

(9) 维度 表 的 抽取 转换 和 装载 ; 

(10) 事实 表 的 抽取 转换 和 装载 。 


2.3.1 数据 抽取 
数据 抽取 工作 包括 以 下 两 点 。 
1. 确认 数据 源 


对 数据 源 的 确认 不 仅 是 对 数据 源 的 简单 确认 ,还 包括 检查 和 确定 数据 源 是 否 可 以 提供 
数据 仓库 需要 的 数据 。 该 项 工作 包括 : 

(1) 列 出 对 事实 表 的 每 一 个 数据 项 和 事实 ; 

(2) 列 出 每 一 个 维度 属性 ; 

(3) 对 于 每 个 目标 数据 项 , 找 出 源 数据 项 ; 

(4) DW 中 一 个 数据 元 素 有 多 个 来 源 , 选 择 最 好 的 来 源 ; 

(5) 确认 一 个 目标 字段 的 多 个 源 字段 ,建立 合并 规则 ; 
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(6) 确认 多 个 目标 字段 的 一 个 源 字段 ,建立 分 离 规 则 ; 
(7) 确定 默认 值 ; 
(8) 检查 缺失 值 的 源 数据 。 


2. 数据 抽取 技术 


数据 抽取 时 要 考虑 两 种 情况 : 

(1) 当前 值 。 源 系统 中 存储 的 数据 都 代表 了 当前 时 刻 的 值 , 当 商 业 交易 时 ,这 些 数据 是 
会 发 生变 化 的 。 

(2) 周期 性 的 状态 。 这 类 数据 存储 的 是 每 次 发 生变 化 时 的 状态 。 例 如 ,对 于 每 一 保险 
索赔 ,都 经 过 索赔 开始 、 确 认 、 评 估 和 人 解决 等 步骤 ,都 要 考虑 时 间 说 明 。 

在 建立 数据 仓库 时 ,从 某 一 特定 时 间 开 始 的 最 初 数据 必须 迁移 到 数据 仓库 中 ,以 使 数据 
仓库 开始 运转 ,这 是 初始 装载 。 在 初始 装载 之 后 ,数据 仓库 必须 保持 更 新 ,使 变化 的 历史 和 
状态 可 以 在 数据 仓库 中 反映 出 来 。 

数据 抽取 完成 两 类 数据 的 抽取 : 

(1) 静态 数据 的 抽取 。 一 般 在 数据 仓库 的 初始 装载 时 抽取 的 是 静态 数据 , 它 代 表 了 某 
个 时 刻 的 快照 。 

(2) 修正 数据 的 抽取 。 它 也 称 为 追加 的 数据 抽取 。 修 正 数据 的 抽取 过 程 包括 特定 时 刻 
抽取 的 数据 值 , 分 为 立即 型 数据 抽取 (实时 的 数据 抽取 ) 和 延缓 型 的 数据 抽取 。 

立即 型 数据 抽取 的 典型 方法 是 通过 读 取 交 易 日 志 抽 取 所 有 相关 交易 记录 。 一 般 利 用 复 
制 技术 从 交易 日 志 中 捕获 交易 日 志 中 的 变化 数据 ,从 日 志 传输 到 目标 文件 中 ,并 检验 数据 变 
化 的 传输 情况 ,确保 复制 的 成 功 。 

延缓 型 数据 抽取 的 典型 方法 是 ,通过 读 取 源 记录 中 包括 日 期 和 时 间 的 标记 ,抽取 更 新 源 
记录 的 数据 。 如 果 没 有 时 间 标记 的 旧 数 据 源 , 就 要 通过 “快照 对 比 技术 ”, 即 通过 比较 源 数据 
的 两 个 快照 来 抽取 变化 的 数据 。 


2.3.2 数据 转换 


数据 抽取 过 程 中 得 到 的 数据 是 没有 经 过 加 工 的 数据 ,不 能 直接 应 用 于 数据 仓库 ,必须 经 
过 多 种 处 理 , 将 抽取 的 数据 转换 成 可 以 存储 在 数据 仓库 中 的 信息 。 


1. 数据 转换 的 基本 功能 


(1) 选择 。 从 源 系统 中 选择 整个 记录 或 者 部 分 记录 。 

(2) 分 离 /合并 。 对 源 系统 中 记录 中 的 数据 进行 分 离 操作 或 者 对 很 多 源 系统 中 选择 的 
部 分 数据 进行 合并 操作 。 

(3) 转化 。 对 字段 的 转化 包括 对 源 系 统 进行 标准 化 和 使 字段 对 用 户 来 说 是 可 用 和 可 理 
解 的 。 

(4) 汇总 。 数 据 仓库 中 需要 保存 很 多 汇总 数据 。 这 需要 将 最 低 粒度 数据 进行 汇总 。 例 
如 ,对 零售 连锁 店 需要 将 每 一 个 收 款 机 的 每 一 笔 交易 的 销售 数据 ,汇总 为 每 天 每 个 商店 关于 
每 种 商品 的 数据 。 
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(5) 清晰 化 。 对 单个 字段 数据 进行 重新 分 配 和 简化 ,使 数据 仓库 更 便利 使 用 。 
2. 数据 转换 类 型 


(1) 格式 修正 。 包 括 数据 类 型 和 单个 字段 长 度 的 变化 ,例如 在 源 系 统 中 ,产品 类 型 通过 
代码 和 名 称 在 数值 型 和 文本 类 型 中 表示 ,不 同 的 源 系 统 将 会 有 所 不 同 ,对 这 些 数 据 类 型 进行 
标准 化 ,改变 成 更 有 意义 的 文本 值 。 

(2) 字段 的 解码 。 对 所 有 隐 涩 的 编码 进行 解码 ,将 它们 变 成 用 户 可 以 理解 的 值 。 例 如 ， 
对 性 别 的 解码 ,在 源 系统 中 有 的 用 1 和 2 表示 ,有 的 用 M 和 下 表示 男性 和 女性 。 

(3) 计算 值 和 导出 值 。 在 数据 仓库 中 ,有 时 需要 用 销售 和 成 本 一 起 计算 出 利润 值 。 导 
出 字段 包括 平均 每 天 的 收 支 差额 和 相关 比率 。 

(4) 单个 字段 的 分 离 。 在 旧 系 统 中 将 客户 名 称 、 地 址 存放 在 大 型 文本 字段 中 ; 姓 和 名 存 
放 在 一 个 字段 中 ;城市 .地 区 和 邮政 编码 存放 在 一 个 字段 中 。 在 数据 仓库 中 却 需 要 将 姓名 和 
地 址 存放 在 不 同 的 字段 中 ,便利 不 同 要 求 的 分 析 工 作 。 

(5) 信息 的 合并 。 例 如 ,一 个 产品 的 信息 可 能 从 不 同 的 数据 源 中 获得 : 产品 编码 和 产 
品名 从 一 个 数据 源 得 到 ;相关 包装 类 型 从 另 一 个 数据 源 中 得 到 ;成 本 数据 从 第 三 个 数据 源 中 
得 到 。 信 息 合并 是 将 产品 编码 .产品 名 ,包装 类 型 和 成 本 的 有 机 组 合 ,成 为 一 个 新 的 实体 。 

(6) 特征 集合 转化 。 例 如 ,在 源 系 统 中 数据 采用 EBCDIC 码 , 而 数据 仓库 数据 采用 
ASCII 码 , 这 将 要 进行 代码 集合 的 转化 。 

(7) 度量 单位 的 转化 。 使 数据 具有 相同 的 标准 度量 单位 。 不 少 国家 有 自己 的 度量 单 
位 ,需要 在 数据 仓库 中 采用 标准 度量 单位 。 

(8) 日 期 /时 间 转 化 。 日 期 和 时 间 的 表示 应 该 转化 成 国际 标准 格式 。 如 2005 年 10 月 
15 日 在 美国 表示 成 10/15/2005 ,而 在 英国 表示 为 15/10/2005。 标 准 格式 为 15 OCT 2005。 

(9) 汇总 。 这 种 类 型 的 转换 是 创建 数据 仓库 的 汇总 数据 。 汇 总 数据 适合 于 客观 战略 性 
的 查询 。 

(10) 关键 字 重新 构造 。 在 源 系 统 中 关键 字 可 能 包含 很 多 项 的 内 容 。 如 产品 编码 包括 
仓库 代码 .销售 区 域 . 产 品 编码 等 多 项 内 容 。 在 数据 仓库 中 ,关键 字 要 发 生变 化 ,转换 成 适合 
于 事实 表 和 维 表 的 普通 键 值 。 


3. 数据 整合 和 合并 


数据 仓库 的 数据 是 从 很 多 不 同 的 分 散 的 源 系统 中 的 源 数 据 集成 起 来 的 。 各 源 系 统 采用 
不 同 的 命名 方式 和 不 同 的 数据 标准 。 数 据 整合 和 合并 是 将 相关 的 源 数据 组 合成 一 致 的 数据 
结构 , 装 入 数据 仓库 。 具 体 表现 如 下 : 

(1) 实体 识别 问题 

例如 ,一 个 数据 仓库 的 数据 来 源 于 3 个 不 同 的 客户 系统 。 一 个 系统 是 订单 登记 系统 ,一 
个 是 客户 服务 支持 系统 ,一 个 是 市 场 系统 。 这 3 个 系统 中 对 相同 客户 可 能 分 别 有 不 同 的 
键 码 。 

在 数据 仓库 中 ,需要 为 每 一 个 客户 建立 一 个 记录 ,就 必须 从 3 个 源 系 统 中 得 到 同一 客户 
的 数据 ,将 它们 组 合成 一 条 单独 的 记录 。 这 是 客户 实体 识别 问题 。 
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进行 数据 转换 时 ,需要 让 用 户 参与 这 个 过 程 ,帮助 对 实体 的 识别 ,并 设计 算法 ,将 3 个 系 
统 中 得 到 的 记录 进行 匹配 ,建立 统一 的 记录 集合 。 

(2) 多 数据 源 相 同属 性 不 同 值 的 问题 

例如 ,假设 产品 的 单位 成 本 可 能 从 两 个 系统 中 得 到 ,在 特定 的 时 间 间 隔 内 对 成 本 值 进 行 
计算 和 刷新 ,由 于 两 个 系统 中 得 到 的 成 本 存在 一 些 差别 ,数据 仓库 应 该 从 哪个 系统 中 取得 成 
本 呢 ? 

有 3 种 方法 : 

Qa 分 别 给 这 两 个 系统 不 同 的 优先 权 , 取 高 优先 权 的 成 本 数据 ; 

@ 根据 最 新 的 刷新 日 期 来 选择 其 中 一 个 源 系统 的 成 本 数据 ; 

@ 根据 其 他 相关 字段 来 选择 合适 的 源 系 统 的 成 本 数据 。 


4. 如 何 实施 转换 


完成 数据 转换 工作 一 般 采 用 两 种 方式 : 自己 编写 程序 实现 数据 转换 和 使 用 转换 工具 。 

(1) 自己 编写 程序 实现 数据 转换 

在 明确 了 数据 转换 的 类 型 和 数据 整合 与 合并 的 内 容 后 ,一般 具 有 编程 能 力 的 程序 员 和 
分 析 师 都 可 以 编写 数据 转换 程序 。 这 种 方式 会 带 来 复杂 的 编程 和 测试 。 

(2) 使 用 转换 工具 

使 用 自动 的 工具 会 提高 效率 和 准确 性 。 当 确定 数据 转换 参数 和 规则 时 ,将 它 作 为 元 数 
据 存储 在 工具 中 ,工具 就 能 有 效 地 完成 数据 转换 工作 。 这 是 使 用 数据 转换 工具 的 主要 优点 。 


2.3.3 数据 装载 


一 旦 创建 了 装载 映像 ,数据 转换 功能 就 结束 了 , 接 下 来 的 是 数据 装载 。 它 完成 将 转换 好 
的 数据 存储 到 数据 仓库 的 数据 库 中 去 。 
数据 装载 工作 包括 数据 装载 方式 和 数据 装载 类 型 。 


1. 数据 装载 方式 


(1) 基本 装载 

按照 装载 的 目标 表 ,将 转换 过 的 数据 输入 到 目标 表 中 去 。 若 目标 表 中 已 有 数据 ,装载 时 
会 先 清除 这 些 数据 ,再 装 和 新 数据 。 目 标 表 可 以 是 事实 表 或 维 表 。 

(2) 追加 

如 果 目 标 表 中 已 经 存在 数据 ,追加 过 程 在 保存 已 有 数据 的 基础 上 增加 输入 数据 。 当 一 
个 输入 数据 记录 与 已 经 存在 的 记录 重复 时 ,输入 记录 可 能 作为 副本 增加 进去 ,或 者 丢弃 新 输 
入 的 数据 。 

(3) 破坏 性 合并 

如 果 输 入 数据 记录 的 主键 与 一 条 已 经 存在 的 记录 的 键 互相 匹配 时 ,用 新 输入 数据 更 新 
目标 记录 数据 。 如 果 输 入 记录 是 一 条 新 的 记录 ,没有 任何 与 之 匹配 的 现存 记录 ,那么 就 将 这 
条 输入 记录 添加 到 目标 表 中 。 
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(4) 建设 性 合并 
如 果 输 入 记录 主键 与 已 有 记录 的 键 相 匹配 时 ,保留 已 有 的 记录 ,增加 输入 的 记录 ,并 标 
记 为 旧 记录 的 替代 。 


2. 数据 装载 类 型 


数据 装载 类 型 包括 3 种 : 最 初 装载 . 增 量 装载 和 完全 刷新 。 

(1) 最 初 装载 

这 是 第 一 次 对 整个 数据 仓库 进行 装载 。 在 装载 工作 完成 以 后 建立 索引 ,这 样 可 以 减少 
创建 索引 时 间 。 

(2) 增 量 装载 

由 于 源 系 统 的 变化 ,数据 仓库 需要 装载 变化 的 数据 ,这 就 是 增 量 装 载 。 

在 建设 性 合并 的 装载 方式 中 ,对 增加 的 输入 记录 中 标记 了 旧 记 录 的 蔡 代 , 这 可 以 作为 增 


量 装 载 的 方法 。 

对 于 已 装 入 的 记录 数据 必须 被 改正 后 的 数据 记录 取代 时 ,要 采用 破坏 性 合并 的 装载 方 
式 作为 增 量 装载 的 方法 。 

(3) 完全 刷新 


这 种 类 型 的 数据 装载 用 于 周期 性 重 写 数据 仓库 。 有 时 ,也 可 能 对 一 些 特定 的 表 进 行 刷 
新 。 完 成 刷新 与 初始 装载 比较 相似 。 不 同 点 在 于 在 完全 刷新 之 前 ,目标 表 中 已 经 存在 数据 。 
初始 装载 和 追加 装载 都 可 以 应 用 于 完全 刷新 中 。 


2.3.4 ETL 工具 
目前 市 场 上 有 3 类 ETL( 数 据 抽取 转换、 装载 ) 工 具 。 
1. 数据 转换 引擎 


这 类 工具 根据 用 户 定义 的 时 间 间 隔 ,从 一 组 指定 的 源 系 统 中 抽取 数据 ,执行 复杂 的 数据 
转换 ,将 结果 导入 到 目标 表 中 。 使 用 这 类 工具 可 以 选择 最 合适 的 数据 转换 方法 ,实施 完全 更 
新 和 增 量 装载 。 

这 类 工具 的 功能 涵盖 了 整个 ETL 过 程 。 


2. 通过 复制 捕获 数据 

这 类 工具 中 大 部 分 使 用 由 数据 库 管理 系统 维护 的 交易 日 志 。 在 交易 日 志 中 捕获 的 源 系 
统 的 变化 ,可 以 近乎 实时 地 在 数据 准备 区 域 被 复制 ,等 待 进一步 的 处 理 。 

3. 代码 生成 器 

这 类 工具 根据 提供 的 数据 源 的 参数 和 目标 输出 以 及 商业 规则 ,能 自动 生成 数据 抽取 和 
转换 程序 ,完成 ETL 过 程 。 

这 类 工具 的 自动 化 程度 较 高 。 

对 数据 仓库 的 数据 抽取 、 数 据 转换 和 数据 装载 过 程 , 选 择 ETL 工具 时 ,需要 考虑 以 下 

下 当主 记 


特征 : 
(1) 从 多 种 关系 型 数据 库 中 抽取 数据 ; 
(2) 从 旧 数 据 库 , 索 引文 件 和 平面 文件 中 抽取 数据 ; 
(3) 源 字段 和 目标 字段 从 一 种 格式 向 另 一 种 格式 进行 数据 转换 ; 
(4) 执行 标准 转化 、 重 定义 键 和 结构 性 变化 ; 
(5) 提供 从 数据 源 到 目标 的 检查 轨迹 ; 
(6) 抽取 和 转换 中 商业 规则 的 应 用 ; 
(7) 将 源 系 统 中 的 几 个 记录 组 合成 一 个 整合 的 目标 记录 ; 
(8) 元 数据 的 记录 和 管理 。 


2.4 元 数 据 


2.4.1 元 数据 的 重要 性 


元 数据 在 数据 仓库 的 建造 运行 中 有 着 极其 重要 的 作用 。 元 数据 描述 了 数据 仓库 的 数 
据 和 环境 ,遍及 数据 仓库 的 所 有 方面 ,是 整个 数据 仓库 的 核心 。 

元 数据 可 分 为 4 类 ,分 别 为 关于 数据 源 的 元 数据 、 关 于 数据 模型 的 元 数据 、 关 于 数据 仓 
库 映 射 的 元 数据 和 关于 数据 仓库 使 用 的 元 数据 。 

下 面 是 元 数据 的 一 个 例子 , 它 定义 了 数据 仓库 中 的 一 个 表 , 如 表 2. 1 所 示 。 


表 2.1 元 数据 举例 


Table 逻辑 名 顾 客 
定义 购买 商品 的 个 人 或 组 织 
物理 存储 DB. table( 数 据 库 表 ) 
建立 日 期 2003 年 1 月 15 日 
最 后 更 新 日 期 2005 年 1 月 20 日 
更 新 周期 每 月 
表 编 辑 程序 名 ABC( 程 序 名 ) 


最 基本 的 元 数据 相当 于 数据 库 系统 中 的 数据 字典 。 由 于 数据 仓库 与 数据 库 有 很 大 的 不 
同 , 因 此 元 数据 的 作用 远 不 是 数据 字典 所 能 相 比 的 。 元 数据 在 数据 仓库 中 有 着 举足轻重 的 
作用 , 它 不 仅 定义 了 数据 仓库 有 什么 ,指明 了 数据 仓库 中 数据 的 内 容 和 位 置 ,刻画 了 数据 的 
抽取 和 转换 规则 ,存储 了 与 数据 仓库 主题 有 关 的 各 种 商业 信息 ,而且 整个 数据 仓库 的 运行 都 
是 基于 元 数据 的 ,如 数据 的 修改 .跟踪 抽取、 装 入 综合 等 。 

有 两 类 人 会 用 到 元 数据 : 最 终 用户 ( 包 括 商业 分 析 员 ) 和 IT 人 员 ( 包 括 开发 人 员 和 管理 
大 员 )。 


1. 最 终 用 户 


数据 仓库 的 用 户 希 望 从 数据 仓库 获取 信息 回答 以 下 问题 : 
。 每 个 商店 各 种 产品 每 天 的 销售 数量 和 金额 是 按照 每 一 笔 交 易 , 还 是 按照 汇总 数据 
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存储 ? 

。 销售 情况 能 够 按照 产品 促销、 商店 和 月 份 进行 分 析 吗 ? 

。 当月 的 销售 能 与 去 年 同期 销售 对 比 吗 ? 

。 销售 情况 能 与 预期 目标 进行 比较 吗 ? 

。 利润 率 是 如 何 计算 的 ? 商业 规则 有 哪些 ? 

。 销售 区 域 是 如 何 划 定 的 ? 需要 分 析 的 两 个 区 域 包含 了 哪些 地 区 ? 

。 销售 情况 的 数据 从 何 而 来 ? 来 自 哪些 源 系统 ? 

。 销售 数据 是 什么 时 候 的 ? 这 些 数据 多 久 更 新 一 次 ? 

最 终 用 户 需 要 的 元 数据 包括 : 数据 内 容 . 汇 总 数据 .商业 维度 .商业 指标 、 浏 览 路 径 、 源 
系统 ,外 部 数据 、 数 据 转换 规则 、 最 后 更 新 日 期 .数据 装载 和 更 新 周期 .查询 模板 .报表 格式 、 
预定 义 查询 和 报表 、OLAP 数据 等 。 

最 终 用 户 需要 的 元 数据 也 称 为 商业 元 数据 , 它 像 一 幅 公 路 地 图 ,显示 了 信息 所 在 的 地 
方 ,以 及 如 何 到 达 那 个 地 方 。 最 终 用 户 通过 商业 元 数据 的 引导 ,能 够 有 效 地 从 数据 仓库 中 获 
得 所 需要 的 信息 ,提高 分 析 效 果 。 


2. IT 人 员 


元 数据 对 数据 仓库 的 开发 者 和 管理 者 来 说 都 很 重要 。 从 开始 的 数据 抽取 ,数据 转换 、 数 
据 集成 ,数据 清洗 ,数据 准备 ,数据 存储 ,到 查询 及 报表 设计 、OLAP 设计 以 及 运行 时 的 管理 
工作 ,IT 人 员 必 须 能 够 得 到 合适 的 元 数据 。 

IT 人 员 需 要 的 元 数据 包括 : 源 数 据 结 构 、 源 平台 ,数据 抽取 方法 、 外 部 数据 ,数据 转换 
规则 ,数据 清洗 规则 、 准 备 区 域 结构 、 维 度 模型 .初始 装载 . 增 量 装载 .数据 汇总 .OLAP 系 
统 、Web 访问 、 查 询 和 报表 设计 。 

IT 人 员 需 要 的 元 数据 也 称 为 技术 元 数据 ,为 负责 开发 .管理 和 维护 数据 仓库 服务 。 技 
术 元 数据 对 IT 人 员 来 说 ,就 像 一 个 支持 技术 工作 的 指南 。 


2.4.2 关于 数据 源 的 元 数据 


这 类 元 数据 是 现 有 业务 系统 的 数据 源 的 描述 信息 ,是 对 不 同 平台 上 的 数据 源 的 物理 结 
构 和 含义 的 描述 。 具 体 为 : 

(1) 数据 源 中 所 有 物理 数据 结构 ,包括 所 有 的 数据 项 及 数据 类 型 ; 

(2) 所 有 数据 项 的 业务 定义 ; 

(3) 每 个 数据 项 更 新 的 频率 ,以 及 由 谁 或 哪个 过 程 更 新 的 说 明 ，; 

(4) 每 个 数据 项 的 有 效 值 ; 

(5) 其 他 系统 中 具有 相同 业务 含义 的 数据 项 的 清单 。 


2.4.3 关于 数据 模型 的 元 数据 


这 类 元 数据 描述 了 数据 仓库 中 有 什么 数据 以 及 数据 之 间 的 关系 ,是 用 户 使 用 管理 数据 
仓库 的 基础 。 这 种 元 数据 可 以 支持 用 户 从 数据 仓库 中 获取 数据 。 用 户 可 以 提出 需要 哪些 
表 , 系 统 从 中 选 一 个 表 , 并 得 到 表 之 间 的 关系 。 重 复 该 过 程 ,用 户 能 够 得 到 希望 的 数据 。 
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为 了 描述 数据 仓库 中 的 数据 及 数据 之 间 的 各 种 复杂 关系 ,元 数据 要 定义 以 下 内 容 : 

(1) 1/O 对 象 : 支持 数据 仓库 IO 操作 的 各 种 对 象 。 元 数据 要 描述 该 LO 对 象 的 定义 、 
类 型 ,状态 、 存 档 ( 刷 新 ) 周 期 。 

(2) 关系 : 两 个 1/O 对 象 之 间 关联 。 这 种 关联 有 3 种 类 型 : 一 对 一 、 一 对 多 和 多 对 多 。 

(3) 关系 成 员 : 描述 每 个 关系 中 两 个 1/O 对 象 的 具体 角色 (在 一 对 多 中 是 父亲 还 是 儿 
子 ) .关系 度 ( 一 对 一 还 是 一 对 多 ) 及 约束 条 件 (必须 满足 还 是 可 选 关系 ) 。 


(4) 关系 关键 字 : 描述 两 个 IO 对 象 是 如 何 建立 关联 的 。 每 个 关系 都 是 通过 1/O 对象 
的 关键 字 来 建立 的 ,元 数据 要 指明 建立 每 个 关系 的 相应 对 象 的 关键 字 。 
这 组 元 数据 定义 的 数据 之 间 的 关系 可 以 用 图 2. 12 来 表示 。 


1O 对 旬 上 关系 成 员 4 关系 


关系 关键 字 


注 : 一 。 表 示 一 对 多 。 


图 2.12 数据 模型 的 元 数据 内 容 
例如 ,雇员 与 技能 之 间 的 关系 如 图 2. 13 表示 。 


Employee E_S Skill 
E_No 12 E_No 


恒 13 S_Code 
一 S_Code ee- 一 一 


注 : 一 。 表 示 一 对 多 。 


图 2.13 雇员 与 技能 之 间 的 关系 图 
在 数据 仓库 中 元 数据 描述 该 关系 如 图 2. 14 所 示 。 


IO 对 象 


关系 成 员 关系 
IO ObjectID RID| Iom | RID 
1 12 | Employee 
Employee | 一 一 12 和 二 12 
ES 13 ES 13 
Skill 13 Skill 
关系 关键 字 


RID| IOID | Field ID 


12 | Employee| ENo 
12 ES ENo 
13 ES S_Code 
13 Skill S_Code 


注 : 一 。 表 示 一 对 多 。 


图 2.14 雇员 与 技能 关系 的 元 数据 内 容 
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2.4.4 关于 数据 仓库 映射 的 元 数据 


这 类 元 数据 是 数据 源 与 数据 仓库 数据 之 间 的 映射 。 

当 数 据 源 中 的 一 个 数据 项 与 数据 仓库 建立 了 映射 关系 ,就 应 该 记 下 这 些 数据 项 发 生 的 
任何 变换 或 变动 , 即 用 元 数据 反映 数据 仓库 中 的 数据 项 是 从 哪个 特定 的 数据 源 抽取 的 ,经 过 
哪些 转换 、 变 换 和 装载 过 程 。 

从 源 系统 的 数据 到 数据 仓库 中 的 目标 数据 的 转移 是 一 项 复杂 的 工作 ,其 工作 量 占 整个 
数据 仓库 开发 的 70%。 这 里 主要 涉及 两 个 问题 : 

1. 抽取 工作 之 间 的 复杂 关系 


一 个 数据 的 抽取 要 经 过 许多 步骤 ,如 图 2. 15 所 示 。 


(rae (|) 3 了 |-| ia 上 -| 弘一 融合 [=| 综合 =| 装载 "| 加 | 目标 | 


图 2.15 数据 抽取 工作 步骤 


(1) 获取 : 从 外 部 或 内 部 源 数 据 系 统 获 取 对 决策 支持 系统 用 户 有 用 的 数据 。 
(2) 过 滤 : 过 滤 掉 不 需要 的 内 容 ( 如 上 次 抽取 后 一 直 没 改变 的 数据 ) 。 

(3) 验证 ; 从 用 户 的 角度 验证 数据 的 质量 。 

(4) 融合 : 把 本 次 抽取 的 数据 与 数据 仓库 中 的 数据 进行 融合 。 

(5) 综合 : 对 数据 进行 综合 ,生成 综合 级 数据 。 

(6) 装载 : 把 新 数据 装 入 到 数据 仓库 中 。 

(7) 存档 : 把 新 装 入 的 数据 单独 存 为 一 个 文件 ,以 便 减少 更 新 操作 的 数据 量 。 


2. 源 数据 与 目标 数据 之 间 的 映射 


源 数据 与 目标 数据 之 间 是 一 种 复杂 得 多 对 多 关系 。 元 数据 要 能 够 描述 这 些 限制 所 带 来 
的 一 系列 问题 。 这 组 元 数据 要 定义 的 内 容 有 : 

(1) 抽取 工作 : 描述 每 一 个 抽取 工作 ,并 为 每 一 个 抽取 工作 标识 其 源 系统 ,明确 其 刷新 
周期 (两 次 抽取 之 间 的 间隔 )。 

(2) 抽取 工作 步骤 : 定义 抽取 工作 中 的 步骤 ,包括 说 明 每 一 步 的 类 型 (如 过 滤 、 验 证 
等 )。 

(3) 抽取 表 映 射 : 为 每 一 个 抽取 步骤 建立 输入 文件 / 表 与 输出 文件 / 表 之 间 的 关联 。 

(4) 抽取 属性 映射 : 为 每 一 个 抽取 步骤 建立 输入 表 ( 文 件 ) 的 属性 与 输出 表 ( 文 件 ) 的 属 
性 之 间 的 关联 。 

(5) 记录 筛选 规则 : 在 抽取 工作 的 每 一 步骤 中 进行 记录 的 筛选 。 如 例子 : 

IF Record. Last_Update_Date>°2003_11_01’OR Record. Create Date > ‘2003_11_01’ 

THEN Reserve( 保 留 ) ELSE Delete( 删 除 ) 


这 类 元 数据 要 定义 的 数据 之 间 的 关系 表示 如 图 2. 16 所 示 。 
vw 放 


抽取 工作 1O 对 象 | 上 域 分 配 


取 工作 步骤 十 抽取 表 映 射 二 抽取 属性 映射 
注 : 一 。 表 示 一 对 多 。 


图 2.16 数据 映射 的 元 数据 内 容 


这 类 元 数据 可 以 用 来 生成 源 代码 ,以 完成 数据 的 转换 工作 , 即 完成 由 操作 型 数据 转换 成 
面向 主题 的 数据 仓库 的 数据 。 元 数据 中 的 抽取 表 映 射 和 抽取 属性 映射 定义 了 进行 实际 抽取 
转换 工作 的 过 程 。 数 据 仓库 管理 核心 利用 该 类 元 数据 所 定义 的 抽取 过 程 生成 某 种 语言 的 源 
代码 (如 VC) ,然后 编译 成 可 执行 的 程序 ,以 完成 数据 的 抽取 工作 。 


2.4.5 关于 数据 仓库 使 用 的 元 数据 


这 类 元 数据 是 数据 仓库 中 信息 的 使 用 情况 描述 。 
数据 仓库 的 用 户 最 关心 的 是 两 类 元 数据 : 
(1) 元 数据 告诉 数据 仓库 中 有 什么 数据 ,它们 从 哪里 来 , 即 如 何 按 主题 查看 数据 仓库 的 


内 容 。 
(2) 元 数据 提供 已 有 的 可 重复 利用 的 查询 语言 信息 。 如 果 某 个 查询 能 够 满足 用 户 的 需 
求 , 或 者 与 用 户 的 愿望 相似 ,用 户 就 可 以 再 次 使 用 这 些 查询 而 不 必 从 头 开 始 编程 。 

更 高 级 的 形式 是 用 户 通过 选择 要 提出 的 业务 问题 类 型 来 访问 现 有 的 查询 ,得 到 相似 查 
询 的 元 数据 。 

关于 数据 仓库 使 用 的 元 数据 能 帮助 用 户 到 数据 仓库 查询 所 需要 的 信息 ,用 于 解决 企业 
问题 。 


习 题 


1. 画 出 数据 仓库 结构 图 ,说 明 各 部 分 内 容 。 

2. 说 明 数 据 仓 库 结 构图 中 包含 轻 度 综合 数据 层 与 高 度 综合 数据 层 的 作用 。 这 些 数据 
是 根据 需要 临时 计算 的 吗 ? 

3. 说 明 数 据 集 市 与 数据 仓库 的 区 别 和 联系 。 

4. 说 明 数 据 集 市 的 特点 。 

5. 画 出 数据 集 市 的 两 种 结构 图 ,说 明 它 们 的 不 同 点 。 

6. 画 出 数据 仓库 系统 结构 图 ,说 明 把 仓库 管理 和 分 析 工具 作为 数据 仓库 系统 的 两 个 独 
立 组 成 部 分 的 原因 。 

7. 说 明 仓库 管理 包含 的 具体 内 容 。 

8. 说 明 分 析 工 具 包含 的 具体 内 容 。 

9. 画 出 数据 仓库 的 运行 结构 图 ,说 明 三 层 C/S 结构 比 两 层 C/S 结构 的 不 同 点 。 
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D oo 中 辐 上 io 忆 口 


coco co cc 
DT 局 


. 数据 仓库 的 逻辑 数据 模型 有 哪些 ? 

. 说 明星 型 模型 有 什么 好 处 。 

. 说 明 数据 仓库 的 数据 模型 为 什么 含 时 间 维 数据 。 
. 说 明 雪花 模型 与 星 网 模型 的 不 同 点 。 

. 第 三 范式 数据 模型 与 星 型 模型 有 什么 不 同 ? 

. 比较 第 三 范式 与 星 型 模型 的 优 缺 点 。 

. 简单 说 明 ETL 过 程 的 主要 步骤 。 

. 说 明 数 据 抽取 工作 的 内 容 。 

. 说 明 数据 转换 的 基本 功能 。 

. 数据 转换 有 哪些 类 型 ? 

. 数据 装载 方式 与 类 型 有 哪些 ? 

. 说 明 数据 库 中 的 元 数据 以 及 数据 仓库 中 的 元 数据 的 不 同 。 
. 什么 是 关于 数据 源 的 元 数据 ? 

. 什么 是 关于 数据 模型 的 元 数据 ? 

. 什么 是 关于 数据 仓库 映射 的 元 数据 ? 

. 什么 是 关于 数据 仓库 使 用 的 元 数据 ? 

. 数据 仓库 中 的 元 数据 是 如 何 发 挥 作用 的 ? 
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在 数据 仓库 系统 中 ,联机 分 析 处 理 (OLAP) 是 重要 的 数据 分 析 工 具 。OLAP 的 基本 思 
想 是 企业 的 决策 者 应 能 灵活 地 、 从 多 方面 和 多 角度 以 多 维 的 形式 来 观察 企业 的 状态 和 了 解 
企业 的 变化 。 


3.1 OLAP 概念 


在 信息 爆炸 的 时 代 , 信 息 过 量 几 乎 成 为 人 人 需要 面 对 的 问题 。 如 何 才能 不 被 信息 的 汪 
洋 大 海 所 淹没 ,从 中 及 时 发 现 有 用 的 知识 或 者 规律 ,提高 信息 利用 率 呢 ? 要 想 使 数据 真正 成 
为 一 个 决策 资源 ,只 有 充分 利用 它 为 一 个 组 织 的 业务 决策 和 战略 发 展 服务 才 行 ,否则 大 量 的 
数据 可 能 成 为 包 被 ,甚至 成 为 垃圾 。OLAP 是 解决 这 类 问题 的 最 有 力 的 工具 之 一 。 

OLAP 专门 设计 用 于 支持 复杂 的 分 析 操作 ,侧重 对 分 析 人 员 和 高 层 管理 人 员 的 决策 支 
持 , 可 以 应 分 析 人 员 的 要 求 快 速 . 灵 活 地 进行 大 数据 量 的 复杂 查询 处 理 ,并 且 以 一 种 直观 易 
懂 的 形式 将 查询 结果 提供 给 决策 制定 者 ,以 便 他 们 准确 掌握 企业 (公司 ) 的 经 营 状况 ,了 解 市 
场 需求 ,制定 正确 方案 ,增加 效益 。OLAP 软件 ,以 它 先进 的 分 析 功 能 和 以 多 维 形 式 提供 数 
据 的 能 力 , 正 作为 一 种 支持 企业 关键 商业 决策 的 解决 方案 而 迅速 崛起 。 


3.1.1 OLAP 的 定义 


在 决策 活动 中 ,决策 人 员 需 要 的 数据 往往 不 是 单一 指标 的 单一 的 值 , 而 是 希望 能 够 从 多 
个 角度 观察 某 个 指标 或 者 某 个 值 ,或 者 找 出 这 些 指标 之 间 的 关系 。 比 如 ,决策 者 可 能 想 知道 
“东北 地 区 和 西南 地 区 今年 一 季度 和 去 年 一 季度 在 销售 总 额 上 的 对 比 情况 ,并 且 销 售 额 按 
10 一 50 万 元 ,50 一 100 万 元 ,以 及 100 万 元 以 上 分 组 ”。 上 面 的 问题 是 比较 有 代表 性 的 ,决策 
所 需 数据 总 是 与 一 些 统计 指标 ,如 销售 总 额 .观察 角度 (如 销售 区 域 .时 间 ) 和 不 同 级 别 的 统 
计 有 关 , 将 这 些 观察 数据 的 角度 称 为 维 。 可 以 说 决策 数据 是 多 维 数据 ,多 维 数据 分 析 是 决策 
分 析 的 主要 内 容 。 但 传统 的 关系 数据 库 系统 及 其 查询 工具 对 于 管理 和 应 用 这 样 复杂 的 数据 
显得 力不从心 。 

OLAP 是 在 OLTP 的 基础 上 发 展 起 来 的 ,OLTP 是 以 数据 库 为 基础 的 , 面 对 的 是 操作 
人 员 和 低层 管理 人 员 ,对 基本 数据 的 查询 和 增 、 删 \ 改 等 进行 处 理 。 而 OLAP 是 以 数据 仓库 
为 基础 的 数据 分 析 处 理 。 它 有 两 个 特点 : 一 是 在 线性 (on line) ,体现 为 对 用 户 请 求 的 快速 
响应 和 交互 式 操作 , 它 的 实现 是 由 客户 机 /服务 器 这 种 体系 结构 在 网 络 环境 上 完成 的 ;二 是 
多 维 分 析 (multi-dimension analysis) ,这 也 是 OLAP 的 核心 所 在 。 

OLAP 超越 了 一 般 查 询 和 报表 的 功能 ,是 建立 在 一 般 事务 操作 之 上 的 另外 一 种 逻辑 步 
又 ,因此 , 它 的 决策 支持 能 力 更 强 。 在 多 维 数据 环境 中 ,OLAP 为 终端 用 户 提供 了 复杂 的 数 
据 分 析 功 能 。 高 层 管理 人 员 通 过 OLAP 能 够 通过 浏览 ,分 析 数 据 去 发 现 数据 的 变化 趋势 、 
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特征 以 及 一 些 潜在 的 信息 ,从 而 更 好 地 帮助 他 们 了 解 商业 活动 的 变化 。 目 前 ,比较 普遍 接受 
的 OLAP 的 定义 有 两 种 。 


1. OLAP 理事 会 给 出 的 定义 


联机 分 析 处 理 是 一 种 软件 技术 ,使 分 析 人 员 能 够 迅速 ,一致 .交互 地 从 各 个 方面 观察 信 
息 ,以 达到 深入 理解 数据 的 目的 。 这 些 信息 是 从 原始 数据 转换 过 来 的 ,按照 用 户 的 理解 , 它 
反映 了 企业 真实 的 方方面面 。 

企业 的 用 户 对 企业 的 观察 自然 是 多 维 的 。 如 销售 ,不 仅 可 从 生产 方面 看 ,还 与 地 点 、 时 
间 等 有 关 , 这 就 是 为 什么 要 求 OLAP 模型 是 多 维 的 原因 。 这 种 多 维 用 户 视图 通过 一 种 更 为 
直观 的 分 析 模 型 进行 设计 和 分 析 。 

OLAP 的 大 部 分 策略 都 是 将 关系 型 的 或 普通 的 数据 进行 多 维 数据 存储 ,以 便于 进行 分 
析 , 从 而 达到 联机 分 析 处 理 的 目的 。 这 种 多 维 数据 库 , 也 被 看 作 超 立 方 体 沿 着 多 个 维 方向 存 
储 数据 ,为 用 户 沿 事物 的 任意 的 多 个 维 方 向 方便 地 分 析 数 据 。 


2. OLAP 简单 定义 


近来 , 随 着 人 们 对 OLAP 理解 的 不 断 深入 ,有 些 学 者 提出 了 更 为 简要 的 定义 , 即 联机 分 
析 处 理 是 共享 多 维 信息 的 快速 分 析 (fast analysis of shared multidimensional information)。 
它 体现 了 4 个 特征 : 

(1) 快速 性 (fast): 用 户 对 OLAP 的 快速 反应 能 力 有 很 高 的 要 求 。 系 统 应 能 在 5 秒 内 
对 用 户 的 大 部 分 分 析 要 求 作出 反应 ,如 果 终 端 用 户 在 30 秒 内 没有 得 到 系统 的 响应 , 则 会 变 
得 不 耐烦 ,失去 分 析 主 线索 ,影响 分 析 的 质量 。 

(2) 可 分 析 性 (analysis): OLAP 系统 应 能 处 理 与 应 用 有 关 的 任何 逻辑 分 析 和 统计 分 
析 。 尽 管 系统 需要 一 些 事先 的 编程 ,但 并 不 意味 着 系统 事先 已 对 所 有 的 应 用 都 定义 好 了 。 

(3) 多 维 性 (multidimensional) : 多 维 性 是 OLAP 的 关键 属性 。 系 统 必须 提供 对 数据 
分 析 的 多 维 视图 和 分 析 , 包 括 对 层次 维和 多 重 层次 维 的 完全 支持 。 

(4) 信息 性 (information) : 不 论 数 据 量 有 多 大 ,也 不 管 数 据 存储 在 何 处 ,OLAP 系统 应 
能 及 时 获得 信息 ,并 且 管 理 大 容量 的 信息 。 

用 于 实现 OLAP 的 技术 主要 包括 网 络 环境 上 客户 机 /服务 器 体系 结构 .时 间 序 列 分 析 、 
面向 对 象 .并 行 处 理 , 数 据 存储 优化 以 及 多 线索 技术 等 。 


3.1.2 OLAP 准则 


1985 年 以 来 ,关系 数据 库 需 求 始 终 受到 下 .F . Codd 提出 的 十 二 条 准则 的 影响 。1993 
年 ,E. F.Codd 在 (Providing OLAP to User Analysts) 中 又 提出 了 有 关 OLAP 的 十 二 条 准 
则 ,用 来 评价 分 析 处 理工 具 , 这 也 是 他 继 关系 数据 库 和 分 布 式 数据 库 提出 的 两 个 “十 二 条 准 
则 ”后 提出 的 第 三 个 “十 二 条 准则 ”。 由 于 这 些 准 则 最 初 是 对 客户 研究 的 结果 ,所 以 业界 对 这 
个 十 二 条 准则 襄 贬 不 一 。 但 其 主要 方面 ,如 多 维 数据 分 析 客户 /服务 器 结构 .多 用 户 支持 及 
一 致 的 报表 性 能 等 方面 还 是 得 到 了 大 多 数 人 的 认可 。E. F.Codd 在 文中 系统 阐述 了 有 关 
OLAP 产品 及 其 所 依赖 的 数据 分 析 模 型 的 一 系列 概念 及 衡量 标准 ,这 对 OLAP 产品 的 辨别 
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及 后 来 发 展 方向 的 确立 都 产生 了 重要 的 作用 。 如 今 , 这 十 二 条 准则 也 成 为 大 家 定义 OLAP 
的 主要 依据 ,被 认为 是 OLAP 产品 应 该 具备 的 特征 。 如 今 OLAP 的 概念 已 经 在 商业 数据 库 
领域 得 以 广泛 使 用 ,Codd 提出 的 OLAP 准则 如 下 。 


1. 多 维 概念 视图 


从 用 户 分 析 员 的 角度 来 看 ,用 户 通常 按 多 维 角度 来 看 待 企业 ,企业 决策 分 析 的 目的 不 
同 ,决定 了 分 析 和 衡量 企业 的 数据 总 是 从 不 同 的 角度 来 进行 ,所 以 企业 数据 空间 本 身 就 是 多 
维 的 。 因 此 OLAP 的 概念 模型 也 应 是 多 维 的 。 用 户 可 以 简单 .直接 地 操作 这 些 多 维 数据 模 
型 。 例 如 ,用 户 可 以 对 多 维 数据 模型 进行 切片 . 切 块 改变 坐标 或 旋转 模式 中 的 联合 (概括 和 
聚集 ) 数 据 路 径 。 


2. 透明 性 


透明 性 原则 包括 两 层 含义 : 首先 , OLAP 在 体系 结构 中 的 位 置 对 用 户 是 透明 的 。 
OLAP 应 处 于 一 个 真正 的 开放 系统 结构 中 ,可 使 分 析 工具 嵌入 用 户 所 需 的 任何 位 置 ,而 不 
会 对 分 析 工 具 的 使 用 产生 副作用 。 同 时 必须 保证 OLAP 工具 的 嵌入 不 会 引入 和 增加 任何 
复杂 性 。 其 次 ,OLAP 的 数据 源 对 用 户 也 是 透明 的 。 用 户 只 需 使 用 熟悉 的 查询 工具 进行 查 
询 ,而 不 必 关 心 OLAP 工具 获取 的 数据 是 来 自 于 同 质 还 是 异 质 的 数据 源 。 


3. 可 访问 性 


OLAP 系统 不 仅 能 进行 开放 的 存 取 , 而 且 还 能 提供 高 效 的 存 取 策略 。OLAP 用 户 分 析 
员 不 仅 能 在 公共 概念 视图 的 基础 上 对 关系 数据 库 中 的 数据 进行 分 析 , 而 且 在 公共 分 析 模型 
的 基础 上 还 可 以 对 关系 数据 库 ,数据 仓库 的 数据 进行 分 析 。 要 实现 这 些 功能 ,就 要 求 OLAP 
能 将 自己 的 概念 视图 映射 到 异 质 的 数据 存储 上 ,并 可 访问 数据 ,还 能 进行 所 需 的 转换 以 便 给 
出 单一 的 .连贯 的 、 一 致 的 用 户 视图 。 另 外 必须 说 明 的 一 点 就 是 ,物理 数据 来 源 于 何 种 系统 ， 
这 对 用 户 来 说 应 是 透明 的 ,进行 处 理 的 是 OLAP 工具 而 不 是 用 户 分 析 员 。 这 是 提供 OLAP 
工具 透明 性 准则 的 基础 之 一 。 

OLAP 系统 应 该 提供 高 效 的 存储 策略 ,使 系统 只 存 取 与 指定 分 析 有 关 的 数据 ,避免 多 
余 的 数据 存 取 。 


4. 一 致 稳定 的 报表 性 能 


报表 操作 不 应 随 维 数 增加 而 削弱 , 即 当 数据 维 数 和 数据 的 综合 层次 增加 时 ,提供 给 最 终 
分 析 员 的 报表 能 力 和 响应 速度 不 应 该 有 明显 的 降低 ,这 对 维护 OLAP 产品 的 简易 性 至 关 重 
要 。 即 便 是 企业 模型 改变 时 ,关键 数据 的 计算 方法 也 无 需 更 改 。 也 就 是 说 ,OLAP 系统 的 
数据 模型 对 企业 模型 应 该 具有 “和 鲁 棒 ”性 。 只 有 做 到 这 一 点 ,OLAP 工具 提供 的 数据 报表 和 
所 做 的 预测 分 析 的 结果 才 是 可 信和 的 。 


5. 客户 /服务 器 体系 结构 


OLAP 是 建立 在 客户 / 服务 器 体系 结构 上 的 ,要 求 它 的 多 维 数据 库 服务 器 能 够 被 不 同 
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的 应 用 和 工具 所 访问 ,服务 器 端 智 能 地 以 最 小 的 代价 完成 同 多 种 服务 器 之 间 的 挂 接任 务 , 智 
能 化 服务 器 必须 具有 在 不 同 的 逻辑 的 和 物理 的 数据 库 间 映射 并 组 合 数据 的 能 力 ,还 应 构造 
通用 的 、 概 念 的 .逻辑 的 和 物理 的 模式 。 从 而 保证 透明 性 和 建立 统一 的 公共 概念 模式 .逻辑 
模式 和 物理 模式 。 客 户 端 负责 应 用 逻辑 及 用 户 界面 。 


6. 维 的 等 同性 


每 一 数据 维 在 其 结构 和 操作 功能 上 必须 等 价 。 可 能 存在 适用 于 所 有 维 的 逻辑 结构 , 提 
供给 某 一 维 的 任何 功能 也 应 提供 给 其 他 维 。 即 系统 可 以 将 附加 的 操作 能 力 授 给 所 选 维 ,但 
必须 保证 该 操作 能 力 可 以 授 给 任意 的 其 他 维 , 即 要 求 维 上 的 操作 是 公共 的 。 该 准则 实际 上 
是 对 维 的 基本 结构 和 维 上 的 操作 要 求 。 


7. 动态 的 稀疏 矩阵 处 理 


OLAP 服务 器 的 物理 结构 应 完全 适用 于 特定 的 分 析 模式 ,创建 和 加 载 此 种 模式 是 为 了 
提供 优化 的 稀 朴 矩阵 处 理 。 当 存在 稀 玻 矩 阵 时 ,OLAP 服务 器 应 能 推 知 数据 是 如 何 分 布 
的 ,以 及 怎样 存储 才 更 有 效 。 

该 准则 包括 两 层 含义 : 第 一 ,对 任意 给 定 的 稀 玻 和 矩阵 ,存在 一 个 最 优 的 物理 视图 ,该 视 
图 能 提供 最 大 的 内 存 效 率 和 甜 阵 处 理 能 力 , 稀 政 度 是 数据 分 布 的 一 个 特征 ,不 能 适应 数据 集 
合 的 数据 分 布 将 会 导致 快速 、 高 效 操作 的 失败 。 第 二 , OLAP 工具 的 基本 物理 数据 单元 可 
配置 给 可 能 出 现 的 维 的 子 集 。 同 时 ,还 要 提供 动态 可 变 的 访问 方法 并 包含 多 种 存 取 机 制 , 例 
如 ,直接 计算 地 址 .B 树 索引 、 导 出 算法 、 哈 希 算法 或 这 些 技术 的 最 佳 组 合 。 访 问 速度 不 会 因 
数据 维 的 多 少 ,数据 集 的 大 小 而 变化 。 

如 果 分 析 要 求 较为 单一 和 固定 ,那么 确实 有 可 能 针对 它 建 立 起 一 个 最 优 的 、 静 态 的 、 具 
有 固定 维 数 的 物理 模式 。 但 实际 上 ,分 析 需 求 的 特点 就 是 具有 不 确定 性 ,所 以 建立 静态 模式 
是 不 现实 的 ,因此 OLAP 工具 必须 使 得 模型 的 物理 模式 充分 适应 指定 的 维 数 ,尤其 是 特定 
模型 的 数据 分 布 。 


8. 多 用 户 支 持 能 力 


当 多 个 用 户 在 同一 分 析 模 式 上 并 行 工作 ,或 是 在 同一 企业 数据 上 建立 不 同 的 分 析 模 型 
时 ,OLAP 工具 应 提供 并 发 访问 .数据 完整 性 及 安全 性 等 功能 。 

实际 上 ,OLAP 工具 必须 支持 多 用 户 也 是 为 了 适合 数据 分 析 工 作 的 特点 。 应 该 鼓励 以 
工作 组 的 形式 来 使 用 OLAP 工具 ,这 样 多 个 用 户 可 以 交换 各 自 的 想法 和 分 析 结果 。 


9. 非 限定 的 跨 维 操作 


在 多 维 数据 分 析 中 ,所 有 维 的 生成 和 处 理 都 是 平等 的 。OLAP 工具 应 能 处 理 维 间 相关 
计算 。 如 果 计 算 时 需要 按 语言 定义 各 种 规则 ,此 种 语言 应 允许 计算 和 数据 操作 跨越 任意 数 
目的 数据 维 , 而 不 必 限 制 数据 单元 间 的 任何 关系 ,也 不 必 考 虑 每 一 单元 包含 的 通用 数据 属性 
数目 。 
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10. 直观 的 数据 操作 


OLAP 操作 要 求 直 观 易 懂 。 如 果 要 重 定向 联系 路 径 ,或 在 维 或 行 间 进 行 细 旗 操作 ,都 
应 该 通过 直观 的 操作 分 析 模 型 来 完成 ,而 不 需要 使 用 菜单 ,也 不 需要 跨越 用 户 界面 进行 多 次 
操作 , 即 综合 路 径 重 定 位 `. 向 上 综合 .向 下 钻 取 和 其 他 操作 都 可 以 通过 直观 方便 的 点 、. 拉 操 
作 完 成 。 

在 分 析 模 型 中 定义 的 维 应 包含 用 户 分 析 所 需 的 所 有 信息 ,从 而 可 以 进行 任意 继承 操作 。 

11. 灵活 的 报表 生成 


用 户 使 用 OLAP 服务 器 及 其 工具 ,可 以 按 任何 想 要 的 方式 来 操作 分析、 综合 和 查看 数 
据 ,这 些 方式 包括 将 行 、 列 及 单元 按 需要 依次 排放 。 报 表 机 制 也 应 提供 此 种 灵活 性 ,报表 必 
须 能 从 各 种 可 能 的 方面 显示 出 从 数据 模型 中 综合 出 的 数据 和 信息 ,充分 反映 数据 分 析 模 型 
的 多 维特 征 ,并 可 按 用 户 需要 的 方式 来 显示 它 。 


12. 不 受 限 制 的 维和 聚集 层次 


OLAP 服务 器 应 能 在 通用 分 析 模 型 中 协调 至 少 15 个 维 。 每 一 通用 维 应 能 允许 有 任 
意 个 用 户 定义 的 聚集 ,而 且 用 户 分 析 员 可 以 在 任意 给 定 的 综合 路 径 上 建立 任意 多 个 聚集 
层次 。 


3.1.3 OLAP 的 基本 概念 


OLAP 是 针对 特定 问题 的 联机 数据 访问 和 分 析 的 。 通 过 对 信息 进行 快速 .稳定 一 致 和 
交互 性 的 存 取 ,允许 管理 决策 人 员 对 数据 进行 深入 观察 。 为 了 对 OLAP 技术 有 更 深入 的 了 
解 ,这 里 主要 介绍 在 OLAP 中 常用 的 一 些 基 本 概念 。 

(1) 变量 

变量 是 数据 的 实际 意义 , 即 描述 数据 "是 什么 ”。 例 如 ,数据 *100” 本 身 并 没有 意义 或 者 
说 意义 未 定 , 可 能 是 一 个 学 校 的 学 生 人 数 , 也 可 能 是 某 产品 的 单价 ,还 可 能 是 某 商品 的 销售 
量 ,等 等 。 一 般 情 况 下 ,变量 是 一 个 数值 度量 指标 ,例如 “人 数 ”"“ 单 价 "“ 销 售 量 ”等 都 是 变 
量 , 而 *100” 则 是 变量 的 一 个 值 。 

(2) 维 

维 是 人 们 观察 数据 的 特定 角度 。 例 如 ,企业 常常 关心 产品 销售 数据 随 着 时 间 推 移 而 产 
生 的 变化 情况 ,这 时 是 从 时 间 的 角度 来 观察 产品 的 销售 ,所 以 时 间 是 一 个 维 (时 间 维 )。 企 业 
也 时 常 关心 自己 的 产品 在 不 同 地 区 的 销售 分 布 情况 ,这 时 是 从 地 理 分 布 的 角度 来 观察 产品 
的 销售 ,所 以 地 理 分 布 也 是 一 个 维 (地 理 维 )。 其 他 还 有 如 产品 维 、 顾 客 维 等 。 

(3) 维 的 层次 

人 们 观察 数据 的 某 个 特定 角度 ( 即 某 个 维 ) 还 可 以 存在 细节 程度 不 同 的 多 个 描述 方面 ， 
称 这 多 个 描述 方面 为 维 的 层次 。 一 个 维 往往 具有 多 个 层次 ,例如 ,描述 时 间 维 时 ,可 以 从 日 
期 月份. 季度、 年 等 不 同 层次 来 描述 ,那么 日 期 月份. 季 度 、 年 等 就 是 时 间 维 的 层次 。 同 样 ， 
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城市 .地 区 、 国 家 等 构成 了 地 理 维 的 层次 。 

(4) 维 成 员 

维 的 一 个 取 值 称 为 该 维 的 一 个 维 成 员 。 如 果 一 个 维 是 多 层次 的 ,那么 该 维 的 维 成 员 由 
各 个 不 同 维 层次 的 取 值 组 合 而 成 。 例 如 ,考虑 时 间 维 具有 日 期 月份 ,年 这 3 个 层次 ,分 别 在 
日 期 月份 .年 上 各 取 一 个 值 组 合 起 来 ,就 得 到 了 时 间 维 的 一 个 维 成 员 , 即 * 某 年 某 月 某 日 ”。 
一 个 维 成 员 并 不 一 定 在 每 个 维 层次 上 都 要 取 值 ,例如 ,“ 某 年 某 月 ”“ 某 月 某 日 ”"“ 某 年 ”等 都 
是 时 间 维 的 维 成 员 。 对 应 一 个 数据 项 来 说 , 维 成 员 是 该 数据 项 在 某 维 中 位 置 的 描述 。 例 如 
对 一 个 销售 数据 来 说 ,时 间 维 的 维 成 员 * 某 年 某 月 某 日 ?就 表示 该 销售 数据 是 “ 某 年 某 月 某 
日 ”的 销售 数据 ,“ 某 年 某 月 某 日 "是 该 销售 数据 在 时 间 维 上 位 置 的 描述 。 

(5) 多 维 数组 

一 个 多 维 数组 可 以 表示 为 : ( 维 1, 维 2,…, 维 ,变量 )。 例 如 , 若 日 用 品 销售 数据 是 按 
时 间 、 地 区 和 销售 渠道 组 织 起 来 的 三 维 立方 体 ,加 上 变量 “销售 额 ”, 就 组 成 了 一 个 多 维 数组 
(地 区 ,时 间 , 销 售 渠道 ,销售 额 ), 如 果 在 此 基础 上 再 扩展 一 个 产品 维 , 就 得 到 一 个 四 维 的 结 
构 , 其 多 维 数组 为 (产品 ,地 区 ,时 间 ,销售 渠道 ,销售 额 ) 。 

(6) 数据 单元 (单元 格 ) 

多 维 数组 的 取 值 称 为 数据 单元 。 当 多 维 数组 的 各 个 维 都 选中 一 个 维 成 员 , 这 些 维 成 员 
的 组 合 就 惟一 确定 了 一 个 变量 的 值 。 那 么 数据 单元 就 可 以 表示 为 : ( 维 1 维 成 员 , 维 2 维 成 
员 ,…', 维 即 维 成 员 ,变量 的 值 ) 。 例 如 ,在 产品 .地 区 .时 间 和 销售 渠道 上 各 取 维 成 员 "牙膏 ”、 
“上 海 "“2004 年 12 月 "和 ”批发 ”, 就 惟一 确定 了 变量 “销售 额 ”的 一 个 值 (假设 为 100 000) ， 
则 该 数据 单元 可 表示 为 : (牙膏 ,上 海 ,2004 年 12 月 ,批发 ,100000) 。 


3.2 OLAP 的 数据 模型 


建立 OLAP 的 基础 是 多 维 数据 模型 ,多 维 数据 模型 的 存储 可 以 有 多 种 不 同 的 形式 。 
MOLAP 和 ROLAP 是 OLAP 的 两 种 主要 形式 ,其 中 MOLAP(multi-dimension OLAP) 是 
基于 多 维 数据 库 的 OLAP ,简称 为 多 维 OLAP;ROLAP(relation OLAP) 是 基于 关系 数据 库 
的 OLAP, 简 称 关系 OLAP。 还 有 几 种 OLAP. 如 WOLAP(Web OLAP) 代 表 网 络 OLAP， 
HOLAP(hybrid OLAP) 代 表 混 合 OLAP。 


3.2.1 MOLAP 数据 模型 


MOLAP 数据 模型 是 基于 多 维 数据 库 的 OLAP, 多 维 数据 库 (multi dimensional data- 
base，MDDB) 是 以 多 维 方式 组 织 数 据 , 即 以 维 作为 坐标 系 , 采 用 类 似 于 数组 形式 存储 数据 。 
多 维 数据 库 中 的 元 素 具 有 相同 类 型 的 数值 ,如 销售 量 。 例 如 ,二 维 MDDB( 数 组 ) 的 数据 组 
织 见 表 3. 1 所 示 。 它 代表 不 同 产品 (衣服 、 鞋 、 帽 ) 在 不 同 地 区 (北京 .上 海 . 广 州 ) 的 销售 量 
情况 。 
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表 3.1 MDDB( 二 维 ) 数 据 组 织 


项 目 ee 北京 上 海 广州 
衣服 600 700 500 
鞋 800 900 700 
帽子 100 200 80 


在 查询 中 除 查询 一 般 的 “衣服 在 广州 的 销售 量 外 ,有 时 查询 像 “ 衣 服 的 总 销售 量 等 类 
问题 ,涉及 多 个 数据 项 求 和 ,如 果 采 取 临 时 进行 累加 计算 ,会 使 查询 效率 大 大 降低 ,为 此 , 需 
要 增加 汇总 数据 项 。 在 多 维 数据 库 中 只 需要 按 行 或 列 进行 求 和 ,增加 “总 和 ”的 维 成 员 即 可 ， 


见 表 3.2 所 示 。 


表 3.2 多 维 数据 库 中 含 综合 数据 的 数据 组 织 


项 目 a 北京 上 海 广州 总 和 
衣服 600 700 500 1800 
鞋 800 900 700 2400 
帽子 100 200 80 380 
总 和 1500 1800 1280 4580 


MDDB 的 数据 组 织 形 式 不 同 于 关系 数据 库 的 组 织 形 式 ,关系 数据 库 是 以 “属性 -元 组 


(记录 ) "形式 组 织 数据 。 对 表 3. 1 中 的 数据 按 关系 数据 库 组 织 ,数据 见 表 3. 3 所 示 。 
表 3.3 关系 数据 库 RDBMS 数据 组 织 


可 见 , 多 维 数据 库 MDDB 比 关系 数据 库 表 达 更 清晰 且 占用 的 存储 少 。 在 关系 数据 库 中 
增加 综合 数据 项 , 见 表 3.4 所 示 。 这 些 综合 数据 项 一 般 在 建立 数据 库 时 ,同时 计算 出 来 。 这 
样 在 查询 时 ,不 必 临 时 进行 计算 ,提高 了 查询 效率 。 对 于 多 维 数据 库 的 综合 数据 项 明显 比 关 


产品 名 地 区 销售 量 
衣服 北京 600 
衣服 上 海 700 
衣服 广州 500 
鞋 北京 800 
鞋 上 海 900 
鞋 广州 700 
帽子 北京 100 
帽子 上 海 200 
帽子 广州 80 


系数 据 库 的 综合 项 更 有 效果 。 
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表 3.4 关系 数据 库 中 综合 数据 的 数据 组 织 


产品 名 地 区 销售 量 
衣服 北京 600 
衣服 上 海 700 
衣服 广州 500 
衣服 总 和 1800 
鞋 北京 800 
鞋 上 海 900 
鞋 广州 700 
鞋 总 和 2400 
帽子 北京 100 
帽子 上 海 200 
帽子 广州 80 
帽子 总 和 380 


3.2.2 ROLAP 数据 模型 


ROLAP 是 基于 关系 数据 库 的 OLAP, 见 表 3. 3 所 示 。 它 是 一 个 平面 结构 ,用 关系 数据 
库 表示 多 维 数据 时 ,采用 星 型 模型 , 即 用 两 类 表 , 一 类 是 事实 表 , 存 储 事实 的 实际 值 ,如 销售 
量 ; 男 一 类 是 维 表 ,对 每 一 个 维 来 说 ,至 少 有 一 个 表 来 存储 该 维 的 描述 信息 ,如 产品 的 名 称 、 
分 类 等 。 星 型 模型 完全 用 二 维 关系 表示 了 数据 的 多 维 观念 。 

通过 关系 数据 库 实现 多 维 查 询 时 ,通过 维 表 的 主 码 对 事实 表 和 每 一 个 维 表 做 连接 操作 ， 
一 次 查询 就 可 以 得 到 数据 的 具体 值 以 及 对 数据 的 多 维 描述 ( 即 对 应 的 各 维 上 的 维 成 员 )。 但 
是 ,因为 对 每 个 维 都 需要 进行 一 次 连接 操作 ,所 以 系统 的 性 能 就 成 了 ROLAP 实现 的 最 大 的 
一 个 问题 ,特别 是 当 维 数 增加 和 事实 表 增 大 时 ,必须 采用 有 效 的 查询 优化 技术 (特别 是 表 连 
接 策 略 ) ,利用 各 种 索引 技术 来 提高 系统 的 性 能 。 

对 于 存在 多 层次 的 复杂 维 时 ,需要 采用 “雪花 模型 ", 用 多 张 表 来 描述 一 个 复杂 维 。 对 于 
存在 综合 数据 时 ,需要 建立 汇总 事实 表 , 采 用 “ 星 网 模型 "来 描述 。 


3.2.3 MOLAP 与 ROLAP 的 比较 


MOLAP 通过 多 维 数据 库 引 擎 从 关系 数据 库 (DB) 和 数据 仓库 (DW) 中 提取 数据 ,将 各 
种 数据 组 织 成 多 维 数据 库 , 存 放 到 MDDB 中 ,并 将 自动 建立 索引 ,并 进行 预 综合 ,来 提高 查 
询 存 取 性 能 ,如 图 3. 1 所 示 。 

ROLAP 从 关系 数据 库 (DB) 和 数据 仓库 (DW) 中 提取 数据 , 按 关 系 OLAP(ROLAP) 的 
数据 组 织 存放 在 关系 数据 库 服务 器 (RDBMS 服务 器 ) 中 。 最 终 用 户 的 多 维 分 析 请 求 ,通过 
ROLAP 服务 器 的 多 维 分 析 引 擎 动态 翻译 成 SQL 请 求 ,将 查询 结果 经 多 维 处 理 ( 将 关系 表 
达 式 转换 成 多 维 视图 ) 返 回 用 户 , 如 图 3. 2 所 示 。 

虽然 这 两 种 技术 都 满足 了 OLAP 数据 处 理 的 一 般 过 程 : 即 数 据 装 入 ,汇总 、 建 索引 和 提 
供 使 用 ,但 MOLAP 较 ROLAP 要 简明 一 些 , MOLAP 的 索引 及 数据 综合 可 以 自动 进行 。 然 
而 ROLAP 的 实现 较为 复杂 ,但 灵活 性 较 好 ,用 户 可 以 动态 实现 统计 或 计算 方式 。 
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图 3.1 MOLAP 结构 
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图 3.2 ROLAP 结构 
下 面 详细 深入 分 析 MOLAP 与 ROLAP 的 对 比 。 
1. 数据 存 取 速度 


ROLAP 的 多 维 数据 是 以 星 型 模型 等 关系 数据 库 ( 平 面 形式 ) 存 储 ,并 不 直接 体现 “ 超 立 
方 体 ” 形 式 。 在 接收 客户 OLAP 请 求 时 ,ROLAP 服务 器 需要 将 SQL 语句 转化 为 多 维 存储 
语句 ,并 利用 连接 运算 临时 “拼合 ”出 多 维 数据 立方 体 ,因此 ,ROLAP 的 响应 时 间 较 长 。 

目前 ,关系 型 数据 库 已 经 对 OLAP 做 了 很 多 优化 ,包括 并 行 存储 、 并 行 查 询 、 并 行 数 
据 管理 .基于 成 本 的 查询 优化 、 位 图 索引 、SQL 的 OLAP 扩展 等 ,大 大 提高 了 ROLAP 的 
速度 。 

MOLAP 是 专 为 OLAP 所 设计 ,能 够 自动 地 建立 索引 ,并 且 有 良好 的 预计 算 能 力 , 能 够 
使 用 多 维 查询 语句 访问 数据 立方 体 , 因 此 MOLAP 在 数据 存储 速度 上 性 能 好 ,响应 速度 快 。 


2. 数据 存储 的 容量 


ROLAP 使 用 的 传统 关系 数据 库 的 存储 方法 ,存储 容量 基本 上 没有 限制 。 但 是 ,需要 指 
出 的 是 ,在 ROLAP 中 为 了 提高 分 析 响 应 速度 ,常常 构造 大 量 的 中 间 表 (如 综合 表 ) ,这 些 中 
间 表 带 来 了 大 量 的 元 余数 据 。 

MOLAP 通常 采用 多 平面 蕉 加 成 立体 的 方式 存放 数据 ,( 这 样 访问 速度 快 ), 由 于 受 操作 
系统 平台 中 文件 大 小 的 限制 , 当 数 据 量 超过 操作 系统 最 大 文件 长 度 时 ,需要 进行 数据 分 割 。 
随 着 数量 的 增 大 ,多 维 数据 库 进 行 的 预 运算 结果 将 占用 巨 量 的 空间 ,此 时 可 能 导致 “数据 爆 
炸 ” 的 现象 。 因 此 ,多 维 数据 库 的 数据 量 级 难以 达到 太 大 的 字 节 级 。 
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3. 多 维 计算 的 能 力 


MOLAP 能 够 支持 高 性 能 的 决策 支持 计算 ,包括 复杂 的 跨 维 计算 、 行 级 的 计算 ,而 在 
ROLAP 中 ,SQL 无 法 完成 部 分 计算 ,并 且 ROLAP 无 法 完成 多 行 的 计算 和 维 之 间 的 计算 。 


4. 维度 变化 的 适应 性 


MOLAP 需要 在 建立 多 维 数据 库 前 确定 各 个 维度 以 及 维度 的 层次 关系 。 在 多 维 数据 库 
建立 之 后 ,如 果 要 增加 新 的 维度 , 则 多 维 数据 库 通常 需要 重新 建立 。 新 增 维度 数据 会 急剧 增 
加 。 而 ROLAP 增加 一 个 维度 ,只 是 增加 一 张 维 表 并 修改 事实 表 , 系 统 中 其 他 维 表 不 需要 修 
改 , 因 此 ROLAP 对 于 维 表 的 变更 有 很 好 的 适应 性 。 


5. 数据 变化 的 适应 性 


由 于 MOLAP 通过 预 综 合 处 理 来 提高 速度 , 当 数据 频繁 地 变化 时 ,MOLAP 需要 进行 
大 量 的 重新 计算 ,甚至 重新 建立 索引 乃至 重 构 多 维 数据 库 。 在 ROLAP 中 , 预 综合 处 理 通 党 
由 设计 者 根据 需求 制定 ,因此 灵活 性 较 好 ,对 于 数据 变化 的 适应 性 高 。 


6. 软 硬 件 平台 的 适应 性 


由 于 关系 数据 库 已 经 在 众多 的 软 硬 件 平台 上 成 功 地 运行 , 即 ROLAP 对 软 硬 件 平台 的 
适应 性 很 好 ,而 MOLAP 相对 较 差 。 


7. 元 数据 管理 


元 数据 是 OLAP 和 数据 仓库 的 核心 数据 ,OLAP 的 元 数据 包括 层次 关系 .计算 转化 信 
息 .报表 中 的 数据 项 描述 .安全 存 取 控 制 .数据 更 新 .数据 源 和 预计 算 综合 表 等 ,目前 在 元 数 
据 的 管理 上 ,MOLAP 和 ROLAP 都 没有 成 形 的 标准 ,MOLAP 产品 将 元 数据 作为 其 内 在 数 
据 , 而 ROLAP 产品 将 元 数据 作为 应 用 开发 的 一 部 分 ,由 设计 者 来 定义 和 处 理 。 

MOLAP 和 ROLAP 在 技术 上 各 有 优 缺 点 。MOLAP 以 多 维 数据 库 为 核心 ,在 数据 存 
储 和 综合 上 有 了 明显 的 优势 ,但 它 不 适应 太 大 的 数据 存储 ,特别 对 有 大 量 稀 疏 数据 的 存储 将 会 
浪费 大 量 的 存储 空间 。ROLAP 以 RDBMS 为 基础 ,利用 成 熟 的 技术 为 用 户 的 使 用 和 管理 
带 来 方便 。 

MOLAP 和 ROLAP 在 数据 存储 .技术 和 特性 的 比较 , 见 表 3. 5 所 示 。 


表 3.5 MOLAP 和 ROLAP 的 比较 


项 目 数据 存储 技 术 特 征 


MOLAP | 详细 数据 用 关系 表 存 储 在 数 | 由 MOLAP 引擎 创建 ;预先 | 询问 响应 速度 快 ;能 轻松 适 
据 仓 库 中 ;各 种 汇总 数据 保 | 建立 数据 立方 体 ;多 维 视图 | 应 多 维 分 析 ; 有 广泛 的 下 钻 
存在 多 维 数据 库 中 ;从 数据 | 存储 在 陈列 中 ,而 不 是 表格 | 和 多 层次 /多 视角 的 查询 
仓库 中 询问 详细 数据 ,从 多 | 中 ;可 以 高 速 检索 矩阵 数据 ; | 能 力 
维 数据 库 中 询问 汇总 数据 ”| 利用 稀 朴 矩阵 技术 来 管理 汇 

总 的 稀 朴 数据 


续 表 


项 目 数据 存储 技 术 特 征 


ROLAP “| 全 部 数据 以 关系 表 存 储 在 数 | 使 用 复杂 SQL 从 数据 仓库 | 在 复杂 分 析 功 能 上 有 局 限 
据 仓 库 中 ;可 获得 细节 的 和 | 中 获取 数据 ; ROLAP 引擎 | 性 ,需要 采用 优化 的 OLAP; 
综合 汇总 的 数据 ;有 非常 大 | 在 分 析 中 创建 数据 立方 体 ; | 向 下 钻 取 较 容易 ,但 是 跨 维 
的 数据 容量 ;从 数据 仓库 中 | 表示 层 能 够 表示 多 维 的 视图 | 向 下 钻 取 比 较 困 难 
询问 所 有 的 数据 


3.2.4 HOLAP 数据 模型 


HOLAP(hybrid OLAP) , 即 混合 OLAP 介 于 MOLAP 和 ROLAP 之 间 。 在 HOLAP 
中 ,对 最 常用 的 维度 和 维 层次 使 用 多 维 数据 库 来 存储 ,对 于 用 户 不 常用 的 维度 和 数据 ,采用 
ROLAP 星 型 结构 来 存储 。 当 用 户 询问 不 常用 数据 时 , HOLAP 将 会 把 简化 的 多 维 数据 库 
和 星 型 结构 进行 拼合 ,从 而 得 到 完整 的 多 维 数据 库 。 

在 HOLAP 的 多 维 数据 库 中 的 数据 维度 少 于 MOLAP 中 的 维度 ,数据 存储 容量 也 少 于 
MOLAP 方式 。 但 是 ,HOLAP 在 数据 存 取 速 度 上 又 低 于 MOLAP。 


3.3 多维 数 据 的 显示 


3.3.1 多 维 数据 的 显示 方法 
多 维 数据 一 般 采用 多 维 数据 库 (MDDB) 和 关系 数据 库 (RDBMS) 两 种 方式 存储 数据 。 
多 维 数据 的 显示 只 能 在 平面 上 展现 出 来 。 对 于 二 级 数据 采用 多 数据 库 形式 显示 时 , 见 表 3. 1 
所 示 。 若 增加 一 维 时 间 维 ,就 无 法 在 平面 上 展现 出 来 。 二 维 数据 采用 关系 数据 库 形式 显示 
时 , 见 表 3.3 所 示 。 若 增加 一 维 时 间 维 ,仍然 可 以 显示 出 来 , 见 表 3.6 所 示 。 
表 3.6 三 维 数据 的 关系 数据 库 显 示 


产品 名 地 区 时 间 销售 量 
衣服 北京 1 月 100 
衣服 北京 2 月 200 
衣服 北京 3 月 300 
衣服 上 海 1 月 200 
衣服 上 海 2 月 300 
衣服 上 海 3 月 400 
衣服 广州 1 月 150 
衣服 广州 2 月 250 
衣服 广州 3 月 300 
鞋 北京 1 月 150 
鞋 北京 2 月 300 
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产品 名 地 区 时 间 销售 量 
鞋 北京 3 月 350 
鞋 上 海 1 月 200 
鞋 上 海 2 月 300 
鞋 上 海 3 月 400 
鞋 广州 1 月 150 
鞋 广州 2 月 250 
鞋 广州 


3 月 300 


用 关系 数据 库 可 以 显示 更 多 维 的 数据 , 即 用 星 型 模型 的 事实 表 形 式 显 示 。 但 是 ,用 事实 


表 显 示 多 维 数据 时 ,重复 数据 很 多 ,也 显得 很 烦琐 。 


用 多 维 数据 库 显 示 时 ,虽然 不 能 同时 显示 三 维 以 上 数据 ,由 于 显示 的 数据 很 精练 ,所 以 
仍然 用 多 维 数据 库 的 方式 来 显示 多 维 数据 。 一 般 在 多 维 数据 库 中 ,固定 一 些 维 成 员 ,重点 显 
示 两 维 的 数据 。 如 在 表 3. 6 三 维 数据 中 ,固定 地 区 维 是 “北京 ”时 的 两 维 数据 的 显示 ,如 表 


3.7 所 示 。 
表 3.7 北京 地 区 销售 情况 表 
北京 地 区 1 月 2 月 3 月 
衣服 100 200 300 
鞋子 150 300 350 


3.3.2 多 维 类 型 结构 


为 了 有 效 地 表示 多 维 数据 ,E. Thomsen 引入 多 维 类 型 结构 (MTS) ,有 些 专 家 称 为 多 维 
域 结构 (MDS) 。 表 示 方 法 是 : 每 一 个 维度 用 一 条 线段 来 表示 。 维 度 中 的 每 一 个 成 员 都 用 线 
段 上 的 一 个 单位 区 间 来 表示 。 例 如 ,用 3 个 线段 分 别 表示 时 间 、 产 品 和 指标 3 个 维 的 多 维 类 


型 结构 ,如 图 3.3 所 示 。 


在 图 3.3 多 维 类 型 结构 中 ,指定 时 间 维 成 员 是 3 月 ,产品 维 成 员 是 鞋 ,指标 维 成 员 是 销 


售 量 , 这 样 代表 了 三 维 数据 总 的 一 个 空间 数据 点 ,如 图 3.4 所 示 。 
时 间 / 月 产品 指标 时 间 G 月 ， 鞋 ， 销 售 量 )9 
1 
十 | 上 衣 固定 成 本 | 
3 J 
二 4 -| 和 可 变 成 本 | 
书 及 二 
书 十 销售 量 | 
4 | 由 了 相 2 
to i 
11 学 i 
十 > 袜子 利润 六 
图 3.3 三 维 MTS 实 例 图 3.4 多 维 类 型 结构 中 的 空间 数据 点 
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在 MTS 中 ,在 原 有 多 维 数据 中 增加 一 个 维 是 很 容易 的 ,例如 在 图 3. 3 的 三 维 中 增加 一 
个 商店 维 ,这 时 需要 增加 一 个 线段 表示 商店 维 ,如 图 3. 5 所 示 。 


时 间 /月 产品 指标 商店 
十 | 上 去 固定 成 本 | 商店 1 
六 .| 并 可 变 成 本 。。”_| 商店 ? 
书 站 二 扩 销 入 。。 
此 帽子 商店 4 
PP 下 二 间接 销售 。 十 沿 店 5 
二 2 袜子 总 销售 商店 6 


图 3.5 四 维 MTS 实例 


3.3.3 多 维 数据 的 分 析 视图 


在 平面 的 屏幕 上 显示 多 维 数据 ,是 利用 行 , 列 和 页 面 3 个 显示 组 来 表示 的 。 例 如 ,对 图 
3.5 中 的 四 维 MTS 实例 ,在 页 面 上 选 定 商店 维度 中 “商店 3”, 在 行 中 选 定时 间 维 的 1 月 、2 
月 ,3 月" 共 3 个 成 员 , 在 列 中 选 定 产 品 维 中 的 “上 衣 、 裤 ,帽子 ”3 个 成 员 , 以 及 指标 维 中 的 “ 固 
定 成 本 、 直 接 销售 "2 个 成 员 。 该 四 维 数据 的 显示 如 图 3. 6 所 示 。 


商店 3 上 衣 裤 帽子 

(页 面 ) 直接 销售 。 | 固定 成 本 | 直接 销售 。 | 固定 成 本 | 直接 销售 固定 成 本 
1 月 450 350 550 450 500 400 

2 月 380 280 460 360 400 320 

3 月 400 310 480 410 450 400 


图 3.6 四 维 数据 的 显示 


对 于 更 多 维度 的 数据 显示 ,需要 选择 维度 及 其 成 员 分 布 在 行 或 者 列 中 。 在 页 面 上 可 以 
选 定 多 个 维度 ,但 每 个 维度 只 能 显示 一 个 成 员 。 在 行 或 者 列 中 一 般 只 选择 2 个 维 ,每 个 维 可 
以 有 多 个 成 员 。 例 如 ,对 6 个 维度 数据 , 它 的 MTS 如 图 3.7 所 示 。 


商店 客户 指标 时 间 / 月 ”场景 产品 
| 商店 1 少年 固定 成 本 站 和 了 | 桌子 
” 于 可 变 成 本 4 | 了 | 许 
商店 3 | 青年 卡 沙发 
十 十 直接 销售 -5 计划 ”十 
商店 4 中 生 荆 茶几 
| 商店 5 十 同 接 销 舍 十 ?0 二 台灯 
商店 6 老年 总 销售 。 -1 吊扇 


图 3.7 六 维 MTS 实例 
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对 以 上 六 维 数据 中 , 设 定 页 面 维度 为 商店 的 成 员 是 “商店 3”, 客 户 维度 成 员 是 “ 老 
年 ”。 行 维度 含 时 间 维 和 产品 维 共 2 个 维度 ,其 中 时 间 维 中 成 员 为 “1 月 .2 月 .3 月 ”。 产 
品 维 中 成 员 为 “桌子 、 台 灯 ”。 列 维度 含 指标 维和 场景 维 共 2 个 维度 ,其 中 指标 维 中 成 员 
为 “直接 销售 .间接 销售 .总 销售 ”。 场 景 维 中 成 员 为 “实际 `. 计 划 ”。 上 有 具体 的 显示 数据 如 图 
3.8 所 示 。 


商店 3， 老 年 直接 销售 间接 销售 总 销售 

(页 面 ) 实际 计划 实际 计划 实际 计划 

1 月 桌子 250 300 125 150 375 450 
台灯 265 320 133 160 400 480 

2 月 桌子 333 400 167 200 500 600 
台灯 283 340 142 170 425 510 

3 上 月 桌子 350 420 175 210 525 630 
台灯 250 300 125 150 375 450 


图 3.8 六 维 数据 的 显示 


由 于 整个 屏幕 的 空间 是 有 限 的 ,将 维度 嵌 套 在 行 或 者 列 中 相对 于 放 在 页 维度 中 会 占据 
更 多 的 屏幕 空间 。 用 于 显示 维度 的 空间 越 多 , 则 用 于 显示 数据 的 空间 就 会 越 少 。 随 着 显示 
数据 空间 的 减少 ,为 了 查看 同样 的 数据 就 需要 做 更 多 的 卷 屏 操作 。 卷 屏 操作 的 增加 也 加 大 
了 理解 正在 寻找 的 数据 的 难度 。 一 些 经 验 规则 如 下 : 

(1) 将 维度 尽量 放 在 页 中 ,除非 确定 需要 同时 看 到 一 个 维度 的 多 个 成 员 。 让 屏幕 上 的 
信息 尽量 相关 。 

(2) 当 维 度 骨 套 在 行 或 者 列 中 时 ,考虑 到 垂直 空间 比 水 平 空间 更 有 用 ,所 以 将 维度 由 套 
在 列 中 比 嵌 套 在 行 中 要 好 。 一 个 经 典 的 显示 方法 就 是 在 行 上 有 1 个 维度 ,而 在 列 上 幅 套 1 
到 3 个 维度 ,而 其 他 的 维度 则 放 在 页 中 ,如 图 3. 6 所 示 。 

(3) 在 决定 数据 的 屏幕 显示 方式 之 前 ,应 该 首先 弄 清楚 需要 查找 和 分 析 比 较 的 内 容 。 
例如 ,如 果 需 要 比较 某 个 产品 和 某 类 客户 在 商品 和 时 间 上 的 实际 成 本 情况 ,可 以 将 产品 
和 客户 放 在 页 面 维 度 中 ,而 在 屏幕 上 则 可 以 按 商 店 和 时 间 来 显示 实际 成 本 ,如 图 3. 9 
所 示 。 

页 面 维 度 : 产品 维 成 员 “ 鞋 ”, 指 标 维 成 员 * 成 本 ”, 场 景 维 成 员 * 实 际 ”, 客户 维 成 员 


“青年 ”。 


商店 月 份 | 1 月 2 月 3 月 4 月 
商店 1 125 170 157 114 
商店 2 200 195 129 L137 
商店 3 136 158 132 144 


图 3.9 按照 商店 和 时 间 比 较 成 本 的 数据 组 织 
下 放下 - 访 


3.4 ”OLAP 的 多 维 数据 分 析 


3.4.1 多 维 数据 分 析 的 基本 操作 


OLAP 的 目的 是 为 决策 管理 人 员 通 过 一 种 灵活 的 多 维 数据 分 析 手段 ,提供 辅助 决策 信 
息 。 基 本 的 多 维 数 据 分 析 操 作 包 括 切 片 . 切 块 . 旋 转 、 钻 取 等 。 随 着 OLAP 的 深入 发 展 ， 
OLAP 也 逐渐 具有 了 计算 和 智能 的 能 力 , 这 些 能 力 称 为 广义 OLAP 操作 。 


1. 切片 (slice) 


选 定 多 维 数组 的 一 个 二 维 子 集 的 操作 叫做 切片 , 即 选 定 多 维 数组 ( 维 1, 维 2,…, 维 
变量 ) 中 的 两 个 维 : 如 维 i 和 维 j ,在 这 两 个 维 上 取 某 一 区 间或 任意 维 成 员 ,而 将 其 余 的 维 都 
取 定 一 个 维 成 员 , 则 得 到 的 就 是 多 维 数组 在 维 ; 和 维 j 上 的 一 个 二 维 子 集 , 称 这 个 二 维 子 集 
为 多 维 数组 在 维 ; 和 维 j 上 的 一 个 切片 ,表示 为 : ( 维 忆 维族 变量 ) 。 

切片 就 是 在 某 两 个 维 上 取 一 定 区 间 的 维 成 员 或 全 部 维 成 员 ,而 在 其 余 的 维 上 选 定 一 个 
维 成 员 的 操作 。 这 里 可 以 得 出 两 点 共识 : 维 是 观察 数据 的 角度 ,那么 切片 的 作用 或 结果 就 
是 舍弃 一 些 观察 角度 ,使 人 们 能 在 两 个 维 上 集中 观察 数据 。 因 为 人 的 空间 想象 能 力 毕竟 有 
限 , 一 般 很 难 想象 四 维 以 上 的 空间 结构 。 所 以 对 于 维 数 较 多 的 多 维 数据 空间 ,数据 切片 是 十 
分 有 意义 的 。 

图 3. 10 所 示 是 一 个 按 产品 维 . 地 区 维和 时 
间 维 组 织 起 来 的 产品 销售 数据 ,用 三 维 数组 表 
示 为 : (地 区 ,时 间 , 产 品 ,销售 额 )。 如 果 在 地 
区 维 上 选 定 一 个 维 成 员 ( 设 为 * 上 海 ”) ,就 得 到 
了 在 地 区 维 上 的 一 个 切片 (关于 “时 间 ” 和 * 产 了 四 
品 ” 的 切片 ); 在 产品 维 上 选 定 一 个 维 成 员 ( 设 为 
“电视 机 ”) ,就 得 到 了 在 产品 维 上 的 一 个 切片 


(关于 “时 间 ” 和 “地 区 ”的 切片 )。 显 然 , 这 样 的 Ee 
切片 数目 取决 于 每 个 维 上 维 成 员 的 个 数 。 

2. 切 块 (dice) 图 3.10 三 维 数据 切片 

切 块 有 两 种 情况 ， 


(1) 在 多 维 数组 的 某 一 个 维 上 选 定 某 一 区 间 的 维 成 员 的 操作 

切 块 可 以 看 成 是 在 切片 的 基础 上 ,确定 某 一 个 维 成 员 的 区 间 得 到 的 片段 ,也 即 由 多 个 切 
片 释 合 起 来 。 对 于 时 间 维 的 切片 (时 间 取 一 个 确定 值 ) ,如 果 将 时 间 维 上 的 取 值 设 定 为 一 个 
区 间 ( 例 如 取 “2001 一 2005 年 ”) ,就 得 到 一 个 数据 切 块 ,可 以 看 成 由 2001 年 至 2005 年 5 个 
切片 登 合 而 成 的 。 

(2) 选 定 多 维 数组 的 一 个 三 维 子 集 的 操作 

在 多 维 数组 ( 维 1, 维 2,…, 维 nn, 变量) 中 选 定 3 个 维 , 维 i、 维 j、 维 ,在 这 3 个 维 上 分 别 


和 


取 一 个 区 间 ,或 任意 维 成 员 ,而 其 他 维 都 取 定 一 个 维 成 员 。 如 在 三 维 数组 (地 区 .时 间 .产品 、 
销售 额 ) 中 地 区 维 取 上 海 与 广州 两 个 维 成 员 ,产品 维 取 电 视 机 、 电 冰箱 两 个 维 成 员 ,时 间 维 取 
2003 至 2005 的 区 间 (3 个 维 成 员 ) 组 成 三 维 立方 体 , 见 图 3. 11 所 示 。 


产品 


上 海 
电视 机 广州 
城市 
i 2004 2005 
0 时 间 


图 3.11 三 维 数据 切 块 


3. 钻 取 (Cdril) 


钻 取 有 向 下 钻 取 (drill down ) 和 向 上 钻 取 (drill up ) 操 作 。 向 下 钻 取 是 使 用 户 在 多 层 
数据 中 能 通过 导航 信息 而 获得 更 多 的 细节 性 数据 ,而 向 上 钻 取 获 取 概 括 性 的 数据 。 例 如 
2005 年 各 部 门 销售 收入 ,如 表 3. 8 所 示 。 


表 3.8 部 门 销售 数据 


部 门 销售 
部 门 1 900 
部 门 2 650 
部 门 3 800 


在 时 间 维 进行 下 钻 操作 ,获得 新 表 3. 9 。 
表 3.9 部 门 销售 下 钻 数据 


项 目 2005 年 
部 门 1 季度 2 季度 3 季度 4 季度 
部 门 1 200 200 350 150 
部 门 2 250 50 150 150 
部 门 3 200 150 180 270 


相反 的 操作 为 上 钼 。 钻 取 的 深度 与 维 所 划分 的 层次 相对 应 。 
4. 旋转 (pivot) 
通过 旋转 可 以 得 到 不 同 视角 的 数据 。 旋 转 操 作 相当 于 平面 数据 将 坐标 轴 旋 转 。 例 如 ， 


旋转 可 能 包含 了 交换 行 和 列 ,或 是 把 某 一 个 行 维 移 到 列 维 中 去 ,或 是 把 页 面 显示 中 的 一 个 维 
和 页 面 外 的 维 进 行 交 换 ( 令 其 成 为 新 的 行 或 列 中 的 一 个 ) ,如 图 3. 12 所 示 。 


“59% 


产 行列 交换 时 
品 间 
维 
0 时 间 维 O 产品 维 
(a) 
地 区 红 产品 维 
4 
旋转 以 改变 
产 显示 布局 地 
品 区 
维 维 
O 时 间 维 O 时 间 维 
(b) 
图 3. 12 旋转 操作 


图 3.12(a) 是 把 一 个 横向 为 时 间 、 纵 向 为 产品 的 报表 旋转 成 为 横向 为 产品 、 纵 向 为 时 间 
的 报表 。 

图 3.12(b) 是 把 一 个 横向 为 时 间 、 纵 向 为 产品 的 报表 变 成 一 个 横向 仍 为 时 间 而 纵向 旋 
转 为 地 区 的 报表 。 


3.4.2 广义 OLAP 功能 


OLAP 的 切片 . 切 块 . 旋 转 与 钻 取 等 基本 操作 是 最 基本 的 展示 数据 ,也 是 获取 数据 信息 
的 手段 。 从 广义 上 讲 ,任何 有 助 于 辅助 用 户 理解 数据 的 技术 或 者 操作 都 可 以 作为 OLAP 功 
能 ,这 些 有 别 于 基本 OLAP 的 功能 称 为 广义 OLAP 功能 。 


1. 基本 代理 操作 


“代理 ?是 一 些 智能 性 代理 , 当 系统 处 于 某 种 特殊 状态 时 提醒 分 析 员 。 

(1) 示警 报告 

定义 一 些 条 件 , 一 旦 条 件 满足 ,系统 会 提醒 分 析 员 去 做 分 析 。 如 每 日 报告 完成 或 月 订货 
完成 等 ,通知 分 析 员 做 分 析 。 

(2) 时 间 报 告 

按 日 历 和 时 钟 提醒 分 析 员 。 

(3) 异常 报告 

当 超 出 边界 条 件 时 提醒 分 析 员 。 如 销售 情况 已 超出 预定 义 阅 值 的 上 限 或 下 限时 提醒 分 
析 员 。 


2. 数据 分 析 模 型 


E.F. Codd 认为 ,以 前 的 数据 分 析 主 要 集中 在 静态 数据 值 的 相互 比较 上 。 有 了 OLAP 

后 ,可 以 进行 动态 数据 分 析 , 需 要 建立 企业 数据 分 析 模 型 。E. F. Codd 将 数据 分 析 模 型 分 为 

4 类 模型 : 绝对 模型 (categorical model) 、 解 释 模 型 (exegetical model) .思考 模型 (contem- 
. 54 . 


plative model) 和 公式 模型 (formulaic model) 。 

(1) 绝对 模型 

它 属于 静态 数据 分 析 ,通过 比较 历史 数据 值 或 行为 来 描述 过 去 发 生 的 事实 。 该 模型 查 
询 比较 简单 ,综合 路 径 是 预先 定义 好 的 ,用 户 交 互 少 。 

(2) 解释 模型 

它 也 属于 静态 数据 分 析 , 分 析 人 员 利 用 系统 已 有 的 多 层次 的 综合 路 径 层 层 细 化 , 找 出 事 
实 发 生 的 原因 。 

(3) 思考 模型 

它 属于 动态 数据 分 析 , 旨 在 说 明 在 一 维 或 多 维 上 引入 一 组 具体 变量 或 参数 后 将 会 发 生 
什么 。 分 析 人 员 在 引入 确定 的 变量 或 公式 关系 时 ,必须 创建 大 量 的 综合 路 径 。 

(4) 公式 模型 

它 的 动态 数据 分 析 能 力 更 高 ,该 模型 表示 在 多 个 维 上 ,需要 引入 哪些 变量 或 参数 ,以 及 
引入 后 所 产生 的 结果 。 

下 面 通过 一 个 实例 进行 说 明 。 

一 家 百货 公司 在 建立 了 自己 的 数据 仓库 之 后 ,希望 构造 一 个 OLAP 系统 辅助 决策 。 决 
策 者 最 关心 的 一 个 问题 是 如 何 最 大 限度 地 扩大 商品 的 销售 量 ,因而 希望 能 尽 可 能 找 出 与 销 
售 量 相 关 的 因素 ,从 而 采取 相应 的 促销 手段 。 但 是 能 获得 多 大 的 帮助 取决 于 采用 何 种 分 析 
模型 。 

绝对 模型 只 能 对 历史 数据 进行 比较 ,并 且 利 用 回归 分 析 等 一 些 分 析 方 法 得 出 趋势 信息 。 
能 回答 诸如 “ 某 种 商品 今年 的 销售 情况 与 以 往 相 比 有 怎样 的 变化 ? 今后 的 趋势 怎样 ?等 类 
问题 。 

解释 模型 能 够 在 当前 多 维 视图 的 基础 上 找 出 事件 发 生 的 原因 。 例 如 ,该 公司 按时 间 、 地 
区 、 商 品 及 销售 渠道 建立 了 多 维 数据 库 ,假设 今年 销售 量 下 降 , 那 么 解释 模型 应 当 能 找 出 原 
因 , 即 销售 量 下 降 与 时 间 、 地 区 、 商 品 及 销售 渠道 四 者 中 的 何 种 因素 有 关 。 

思考 模型 在 决策 者 的 参与 下 , 找 出 关键 变量 。 例 如 该 公司 决策 者 为 了 了 解 某 商 品 的 
销售 量 是 否 与 顾客 的 年 龄 有 关 , 引 入 了 行 变 量 一 一 年 龄 , 即 在 当前 的 多 维 视图 上 增加 了 
顾客 的 年 龄 维 。 解 释 模型 就 能 分 析出 年 龄 的 引入 是 否 必要 , 即 商 品 销售 与 顾客 年 龄 有 关 


或 无 关 。 
公式 模型 自动 完成 上 述 变 量 引入 工作 ,从 而 最 终 找 出 与 销量 有 关 的 全 部 因素 ,并 给 出 引 
和 人 后 的 结果 。 


可 以 看 出 ,这 4 种 模型 ,从 描述 基本 事实 到 寻找 原因 ,从 代入 变量 值 进行 预测 到 寻找 关 
键 变量 ,一 个 比 一 个 深入 。 
E.F. Codd 认为 OLAP 是 因 企业 动态 分 析 而 产生 的 ,其 功能 是 创建 操作、 激活 及 综合 
来 自 解释 模型 .思考 模型 及 公式 模型 中 的 信息 。 它 可 以 识别 变量 间 的 新 的 或 不 可 预测 的 关 
联 , 通 过 创建 大 量 的 维 (综合 路 径 ) 及 指出 维 间 计 算 条 件 、 表 达 式 来 处 理 大 量 数据 ,获得 辅助 
决策 信息 。 
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3， 商业 分 析 模 型 


利用 数据 仓库 中 的 数据 进行 商业 分 析 需 要 建立 一 系列 模型 ,用 于 提高 决策 支持 能 力 。 

具体 的 商业 分 析 模 型 有 : 

(1) 分 销 渠道 的 分 析 模 型 

通过 客户 .渠道 .产品 或 服务 三 者 之 间 的 关系 ,了 解 客户 的 购买 行为 .客户 和 渠道 对 业务 
收入 的 贡献 .哪些 客户 比较 喜好 由 什么 渠道 在 何 时 和 银行 打交道 .目前 的 分 销 渠 道 的 服务 能 
力 如 何 、 需 要 增加 哪些 分 销 渠道 才能 达到 预期 的 服务 水 平 。 

为 此 ,银行 需要 建立 客户 购买 倾向 模型 和 渠道 喜好 模型 等 。 

(2) 客户 利润 贡献 度 模型 

通过 该 模型 能 了 解 每 一 位 客户 对 银行 的 总 利润 贡献 度 ,银行 可 以 依 客户 的 利润 贡献 度 
安排 合适 的 分 销 渠 道 , 提 供 服务 和 销售 ,知道 哪些 利润 高 的 客户 需要 留 住 ,采用 什么 方法 留 
住 客户 ,交叉 销售 改善 客户 的 利润 贡献 度 , 哪 些 客户 应 该 争取 ,完成 个 性 化 服务 。 另 外 ,银行 
可 以 模拟 和 预测 新 产品 对 银行 的 利润 贡献 度 ,或 者 新 政策 对 银行 将 产生 什么 样 的 财务 影响 ， 
或 者 客户 流失 或 留 住 对 银行 的 整体 利润 的 影响 。 

(3) 客户 关系 (信用 ) 优 化 模型 

银行 从 客户 的 每 一 笔 交 易 中 知道 客户 需要 什么 产品 或 服务 ,例如 ,定期 存款 是 希望 退休 
养老 使 用 ;申请 信用 卡 需要 现金 消费 ;询问 放贷 利息 需要 住房 贷款 等 ,这 些 都 是 银行 提供 产 
品 或 服务 最 好 的 时 机 。 银 行 需要 将 每 个 账号 每 天 发 生 的 交易 明细 以 实时 或 定时 方式 加 载 到 
数据 仓库 中 ,校对 客户 行为 的 变化 。 当 有 上 述 变 化 时 ,通过 模型 计算 ,主动 地 与 客户 沟通 并 
进行 交叉 销售 ,以 达到 留 住 客户 和 增加 利润 的 目标 。 

(4) 风险 评估 模型 

模拟 风险 和 利润 间 的 关系 ,建立 风险 评估 的 数学 模型 ,在 满足 高 利润 . 低 风险 客户 需求 
的 前 提 下 ,达到 银行 收益 的 极 大 化 。 

银行 通过 以 上 模型 建立 以 客户 为 中 心 的 数据 仓库 决策 支持 系统 ,才能 真正 实现 个 性 化 
服务 ,提高 银行 竞争 优势 。 


3.4.3 多维 数据 分 析 实 例 


假设 有 一 个 五 维 数据 模型 ,5 个 维 分 别 为 : 商店 ,方案 ,部 门 ,时 间 , 销 售 。 下 面 进 行 实 
例 分 析 。 


1. 多 维 数据 存储 


指定 “商店 二 ALL( 广 州 所 有 商店 ) ,方案 == 现 有 ”情况 的 三 维 表 (行为 部 门 , 列 为 时 间 和 
销售 量 ) ,如 表 3. 10 所 示 。 

表 3. 10 中 无 括号 数 为 增长 率 , 有 括号 表示 下 降 率 ,下 同 。 

对 于 汽车 部 门 出 现 的 奇怪 现象 ,销售 下 降 了 13.2% ,而 利润 却 增加 了 21.4% ,此 时 进行 
向 下 钻 取 。 
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表 3.10 


指定 商店 、 方 案 后 的 三 维 表 


商店 二 |AUl| 方案 =| 现 有 
2004 年 2005 年 增长 率 /% 
销售 量 利润 增长 /% 销售 量 利润 增长 /% 销售 量 利润 增长 
服装 234 670 27.2 381 102 21.5 62.4 (20.0) 
家 具 62 548 33.8 66 005 .1 5.6 (8.0) 
汽车 375 098 22.4 325 402 22 (12 21.4 
所 有 其 他 | 202 388 2 306 677 21.7 50.7 1.9 
2. 向 下 钻 取 
对 汽车 部 门 向 下 钻 取 出 具体 项 目 (维修 附件、 音乐) 的 销售 情况 和 利润 增长 情况 , 见 表 
3.11 所 示 。 
表 3.11 下 钻 数据 
| 2004 年 2005 年 增长 率 /% 
0 销售 利润 增长 /% 销售 利润 增长 /% 销售 利润 增长 
汽车 375 098 22.4 325 402 好:2 C12 21.4 
维修 195 051 14.2 180 786 15.0 CL) f.6 
附件 116 280 43.9 122 545 47.5 SD 8.2 
音乐 63 767 8.2 22 071 14.2 (63.4) 7:3 
3, 切片 表 


切片 (slice) 操 作 是 除去 一 些 列 或 行 不 显示 


,如 对 表 3. 10 的 切片 为 表 3. 12 所 示 。 


表 3.12 切片 表 
商店 二 |Al| 方案 =| 现 有 
2005 年 
项 目 
销售 量 
服装 381 102 
家 具 66 005 
汽车 325 402 
所 有 其 他 306 677 


wr 六 


4. 旋转 表 


将 方案 维 加 入 到 销售 维 中 。 方 案 维 有 3 种 情况 : 现 有 、 计 划 、 最 新 预测 ,这 次 旋转 操作 
得 到 2005 年 的 表 3. 10 中 方案 维 的 成 员 有 : 现 有 、 计 划 、 差 量 、 差 量 (%), 得 到 旋转 表 如 


表 3. 13 所 示 。 


表 3.13 旋转 表 
商店 二 |AUl 方案 =| 现 有 
2005 年 
项 目 销售 量 
现 有 计划 差 量 差 量 /% 
服装 381 102 350 000 31.1 8.9 
家 具 66 005 69 000 (2995) (4.3) 
汽车 325 402 300 000 25 402 8.5 
所 有 其 他 306 677 350 000 (43 323) 12.7 


3.5.1 OLAP 结构 


3.5 ”OLAP 结构 与 分 析 工 具 


OLAP 的 实现 是 基于 客户 /服务 器 (C/S) 模 式 的 。 


1.OLAP 逻辑 结构 


OLAP 逻辑 结构 由 OLAP 视图 和 数据 存储 两 部 分 构成 ,如 图 3. 13 所 示 。 


数据 仓库 


数据 存储 


也有 一 一 一 上 


图 3.13 OLAP 逻辑 结构 


OLAP 视 图 


(1) OLAP 视图 : 对 于 用 户 来 说 它 是 数据 仓库 或 数据 集 市 中 数据 的 多 维 逻 辑 表示 ,不 
管 数据 怎样 存储 和 存储 在 何 处 。 
(2) 数据 存储 : 要 求 选择 数据 实际 存储 的 方式 和 实际 存储 的 位 置 ,两 种 常用 的 选择 是 
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2. OLAP 物理 结构 


物理 结构 包括 基于 数据 存储 的 两 种 方式 : 多 维 数据 存储 和 关系 数据 存储 。 

多 维 数据 存储 主要 有 两 种 选择 : 多 维 数据 存储 于 客户 端 或 OLAP 服务 器 。 在 第 一 种 情 
况 ,多 维 数据 存储 于 客户 端 , 数 据 分 析 也 在 客户 端 , 这 样 形成 了 “ 胖 ? 客 户 端 。 这 种 两 层 客户 / 
服务 器 (C/S) 的 物理 结构 ,如 图 3. 14 所 示 。 


数据 仓库 
胖 客 户 端 服务 器 


图 3.14 OLAP 的 两 层 C/S 物理 结构 


在 第 二 种 情况 ,多 维 数据 存储 放 在 OLAP 服务 器 中 ,抽取 数据 仓库 中 的 数据 ,然后 将 其 
转换 成 多 维 数据 结构 ,并 把 OLAP 服务 传 给 客户 端 , 这 时 客户 端 就 变 成 * 瘦 ?客户 端 , 这 是 一 
种 经 典 的 三 层 客户 /服务 器 物理 结构 ,如 图 3. 15 所 示 。 


OLAP 数据 仓库 
瘦 客 户 端 服务 器 服务 器 


图 3.15 OLAP 的 三 层 C/S 物理 结构 


3.5.2 OLAP 的 Web 结构 
当 使 用 Web 结构 组 织 OLAP 应 用 时 ,其 组 织 结构 如 图 3. 16 所 示 。 


数据 仓库 系统 
OLAP 服务 器 
ee CGI 
Web 服 务 器 API 
HTML 
- Java applets 
客户 浏览 器 ActiveX 控件 
Java Script 


图 3.16 基于 Web 的 OLAP 结构 图 


Web 服务 器 负责 完成 浏览 器 与 OLAP 服务 器 .数据 仓库 系统 之 间 的 通信 连接 。 一 般 来 
说 , Web 服务 器 通过 使 用 CGI 脚本 、Web 服务 器 API、 应 用 API 和 数据 库 API 等 ,管理 浏览 
器 的 通信 。 在 浏览 器 端 , 则 需要 组 织 HTML Java applets、ActiveX 控件 ,Java script 来 完成 
与 用 户 的 交互 界面 和 控制 。 

在 实现 基于 Web 的 OLAP 应 用 时 ,往往 采用 自 项 向 下 的 设计 。 首 先 要 确定 用 户 如 何 
在 浏览 器 中 得 到 报表 信息 ,然后 再 给 出 一 系列 的 过 程 完 成 基于 浏览 器 的 OLAP 操作 。 这 些 
过 程 应 当 包 括 发 布 信息 ,提供 HTTP 对 数据 库 或 应 用 服务 器 的 动态 数据 请 求 , 设 计 支 持 分 
析 功 能 的 界面 。 
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Web 服务 器 要 为 发 布 准备 和 创建 信息 ,管理 员 必 须 生 成 一 些 报 表 和 图 表 为 查询 作 准 备 。 
在 客户 端 基于 Web 浏览 器 的 OLAP 报表 被 分 为 几 个 层次 ,其 中 包括 没有 分 析 功 能 的 静态 报表 
和 能 够 进行 分 析 的 OLAP 应 用 界面 ,如 维 的 旋转 .数据 的 钻 取 等 。 另 外 ,特别 要 提 到 的 是 ,标准 
的 HTML 界面 缺乏 操作 的 灵活 与 方便 。Java applets 和 ActiveX 控件 的 使 用 会 大 大 提高 用 户 
界面 的 友好 程度 ,用 户 通过 简单 的 拖 放 操 作 就 可 以 完成 旋转 2?“ 钻 取 ” 的 操作 。 

大 体 上 来 说 ,实现 基于 Web 的 OLAP 有 3 种 方法 : 

。 静态 的 HTML 报表 ; 

。 通过 HTML 模板 .元 数据 动态 生成 报表 ; 

。 使 用 Java 或 ActiveX 的 改进 方式 。 


1. 静态 方法 


这 种 方法 使 用 的 数据 是 脱 机 ”方式 制作 的 。 也 就 是 说 ,制作 者 根据 HTML 模板 和 某 
个 时 刻 的 数据 为 Web 服务 器 制作 大 量 的 HTML 页 面 。 这 些 HTML 页 面 是 静态 的 ,代表 
某 个 时 间 点 的 数据 ,用 户 得 到 的 是 一 些 固定 的 报表 。 当 用 户 要 求 完成 OLAP 操作 时 , Web 
服务 器 能 够 提供 一 种 "仿真 方式 。 可 以 预先 制作 一 些 HTML 页 面 ,使 用 超 文本 的 跳 转 方 
式 组 织 起 来 ,使 用 户 在 使 用 上 感觉 是 在 * 钻 取 ? 或 "旋转 ”。 

这 种 方法 有 3 个 特点 : 

(1) 用 户 所 见 到 的 数据 是 脱 机 的 ,OLAP 功能 的 完成 是 一 种 仿真 模式 。 

(2) 由 于 HTML 页 面 是 事先 制作 好 的 ,数据 又 与 数据 库 分 离 ,响应 速度 快 。 

(3) 尽管 OLAP 应 用 实时 性 要 求 不 高 ,但 仍 需要 Web 调度 为 服务 器 定期 制作 和 更 换 
HTML 页 面 。 

可 以 看 出 ,这 种 方法 实现 简单 ,可 以 作为 系统 试 运行 和 用 户 培训 的 先 验 系统 。 


2. 动态 方法 


这 是 一 种 通用 的 方法 ,在 用 户 有 服务 请 求 时 ,服务 器 根据 HTML 模板 和 数据 库 中 的 数 
据 动态 地 生成 HTML 页 面 。 与 前 一 种 方法 不 同 的 是 , Web 服务 器 只 存放 HTML 模板 和 元 
数据 ,这 里 元 数据 可 以 告诉 Web 服务 器 在 哪里 和 怎样 得 到 数据 。 

HTML 模板 在 服务 器 上 的 存放 也 有 两 种 形式 : 一 种 是 标准 的 Web 形式 ,事先 生成 一 
些 模 板 ,在 用 户 请 求 时 将 数据 与 模板 结合 ,返回 客户 端 。 另 一 种 模式 是 厂商 为 方便 用 户 设 计 
HTML 所 采用 的 特殊 方法 。 这 种 方法 将 元 数据 与 模板 存放 在 统一 的 数据 库 格 式 下 ,用 户 在 
设计 这 种 网 页 时 ,通过 可 视 化 的 界面 完成 设计 ,设计 工具 根据 这 个 设计 将 所 有 的 设计 信息 ， 
包括 模板 样式 和 元 数据 存储 到 数据 库 。 当 用 户 请 求 服务 器 服务 时 ,服务 器 通过 特殊 的 解释 
工具 解释 数据 库 中 的 模板 与 元 数据 信息 组 织 HTML 页 面 , 返 回 客户 端 。 

由 于 服务 器 对 HTML 模板 与 元 数据 的 存储 独立 于 客户 端 ,客户 端 接收 的 是 HTML 页 
面 , 因 此 这 种 方法 是 一 种 方便 的 组 织 方 式 , 可 以 使 客户 端 跨 平 台 使 用 。 这 种 方便 的 特性 主要 
来 自 CGI 的 工作 方式 (因为 CGI 在 服务 器 启动 程序 得 到 一 个 HTML 页 面 , 然 后 向 客户 端 返 
回 ) ,而 使 用 Web 服务 器 ,API 则 往往 只 能 在 相对 固定 的 平台 中 使 用 。 

这 种 方法 是 基于 Web 的 OLAP 系统 的 主流 组 织 方法 ,其 特点 主要 有 
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(1) HTML 模板 与 元 数据 存储 在 Web 服务 器 上 ,动态 形成 HTML 页 面 ,实时 性 好 。 
(2) 响应 时 间 没 有 第 一 种 方法 快 ,有 时 甚至 很 慢 。 
(3) 服务 器 具有 跨 平 台 的 独立 性 。 


3. 改进 的 方法 


这 种 方法 是 第 二 种 方法 的 改进 型 ,这 种 方法 引进 了 Java 和 ActiveX 技术 ,使 得 用 户 界 
面 更 加 友好 ,使 用 更 加 方便 。 

具体 来 说 ,这 种 方法 的 实现 有 两 种 途径 。 第 一 种 途径 是 在 服务 器 生成 二 进 制 的 数据 文 
件 ,服务 器 将 这 些 数据 传送 到 客户 端 ,这 些 数据 与 相应 的 控件 联系 ,控件 的 属性 可 以 得 到 这 
些 文件 的 标识 。 控 件 可 以 告知 浏览 器 下 载 这 个 数据 文件 ,再 将 这 个 文件 与 一 个 数据 构件 联 
系 ,以 后 对 于 数据 的 OLAP 操作 (旋转 、 钻 取 ) 都 由 这 个 数据 构件 提供 ,不 再 向 服务 器 请 求 服 
务 。 第 二 种 途径 是 让 数据 构件 向 服务 器 请 求 用 户 要 求 的 数据 ,构件 得 到 的 是 开放 的 HTTP 
流 ,在 得 到 以 后 将 这 些 数据 流 分 解 , 显 示 到 交互 界面 上 。 


3.5.3 OLAP 工具 及 评价 


随 着 OLAP 技术 研究 的 深入 ,目前 许多 公司 已 经 推出 了 相应 的 OLAP 支持 工具 ,如 
Oracle .IBM 、Business Object\SAS NCR 等 。 

对 于 功能 特点 不 同 、 应 用 领域 不 同 以 及 技术 特性 不 同 的 OLAP 产品 ,本 节 给 出 了 对 
OLAP 分 析 工 具 的 评价 指标 。 

OLAP 服务 器 和 工具 可 以 按 以 下 5 个 方面 进行 评价 : 特征 和 功能 \ 访 问 性 能 .OLAP 服 
务 引擎 ,管理 以 及 全 局 结构 。 用 户 可 以 从 这 5 个 方面 分 析 市 场 上 的 OLAP 产品 ,也 可 以 把 
它们 作为 应 用 系统 中 OLAP 需求 分 析 指 标 。 


1. 特征 和 功能 


OLAP 是 一 种 分 析 处 理 技术 , 通 过 计算 公式 和 转换 规则 从 现 有 的 数据 中 生成 新 的 信 
息 ,并 予以 显示 。OLAP 服务 器 和 工具 应 能 完成 以 下 功能 。 

。 支持 多 维和 维 中 的 层次 ; 
沿 单个 维 或 沿 一 组 所 选 维 来 聚集 、 概 括 、 预 计算 和 导出 数据 ; 
。 相对 一 个 维 或 一 组 选中 的 维 提供 计算 逻辑 .公式 和 分 析 过 程 ; 
支持 分 析 模 型 的 概念 : 分 析 模 型 是 一 组 选中 的 维 及 维 的 元 素 . 计 算 罗 辑 . 公 式 、 分 析 
过 程 、. 聚 集 数 据 、 概 括 数据 和 导出 数据 等 ; 
。 提供 丰富 的 库 函 数 ; 
。 提供 强大 的 计算 和 比较 分 析 能 力 , 例 如 : 分 级 、 比 较 、 归 类 百分比 , 极 大 值 . 极 小 值 、 

平均 值 按 时 期 的 比较 等 ; 

。 进行 跨 维 计算 ,例如 在 面向 电子 表格 的 应 用 程序 中 进行 行 级 别 的 计算 等 ; 
。 提供 时 间 相 关 的 智能 ,例如 , 按 日 期 划分 的 年 ,跨越 给 定时 间 段 的 日 历 . 当 前 时 期 、 财 
政 的 和 内 部 的 日 历 等 ; 
从 一 个 维 到 另 一 个 维 进行 转换 ,在 合并 或 获取 数据 后 特别 有 用 ; 
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。 导航 并 分 析 , 采 用 沿 单个 或 多 个 维 的 轴 以 及 交叉 表 等 进行 细 训 和 浏览 。 
这 些 操作 应 满足 用 户 分 析 时 的 要 求 , 分 析 过 程 应 是 平滑 的 、 连 贯 的 。 


2. 访问 性 能 


OLAP 的 访问 服务 应 提供 多 种 选择 ,潜在 的 选择 应 包括 以 下 内 容 。 

(1) 电子 表格 : 商业 用 户 至 少 应 能 将 OLAP 数据 加 载 至 他 们 的 电子 表格 工具 , 因 其 他 
的 分 析 和 报表 可 能 要 用 到 这 些 数据 ; 

(2) 私 用 客户 工具 : 在 提供 一 个 特定 的 应 用 时 ,例如 预算 ,用 户 总 是 希望 尽快 开始 分 析 
处 理 。 其 功能 是 否 丰富 、 是 否 能 满足 用 户 要 求 , 是 关键 的 标准 ; 

(3) 客户 的 “立体 导航 器 ”; 它们 是 源 于 第 三 方 的 工具 ,但 存在 与 OLAP 服务 器 的 接口 ， 
访问 接口 应 完成 以 下 功能 : 

， 访 问 并 抽取 基于 层次 ,模型 .时 间 和 其 他 所 选 维 的 数据 子 集 ; 

。 用 单个 抽取 请 求 访问 多 个 层次 ; 

。 了解 聚集 和 概括 数据 及 其 划分 方式 和 索引 ,以 便 生成 适当 的 查询 ; 

。 在 访问 关系 数据 存储 时 ,优化 特定 的 关系 数据 库 ,包括 关系 数据 库 中 SQL 的 扩充 。 


3. OLAP 服务 引擎 


无 论 是 采用 多 维 存 储 还 是 关系 存储 ,OLAP 服务 引擎 都 应 满足 分 析 模 型 及 应 用 在 功 
能 ,规模 和 技术 特征 上 的 要 求 。 技 术 特 征 的 需求 依赖 于 分 析 模 型 和 和 希望 采用 的 方式 。 其 中 
一 些 特征 如 下 ， 
。 读 写 功能 : 用 于 交互 式 预测 和 预算 的 应 用 程序 。 
。 多 用 户 写 操作 : 支持 按 工作 组 进行 的 多 维 分 析 。OLAP 多 用 户 写 操 作 比 直接 写 关 
系数 据 时 遇 到 的 问题 要 多 得 多 。OLAP 修改 或 写 请 求 不 仅仅 只 是 考虑 表 中 的 一 行 ， 
可 能 需要 重 计算 派生 的 和 经 计算 得 到 的 信息 ,这 些 信息 将 影响 多 个 维和 维 的 层次 。 
， 多 数据 库 : 如 果 每 一 个 OLAP 应 用 程序 都 有 一 数据 库 , 它 可 能 需要 在 数据 库 间 进行 
交互 的 机 制 ,因为 一 个 数据 库 中 产生 的 数据 可 能 要 输入 其 他 数据 库 。 例 如 ,财务 
OLAP 应 用 程序 需要 源 于 销售 OLAP 应 用 程序 的 收入 信息 ,以 便 建立 损益 报表 并 
把 实际 情况 与 预测 情况 进行 比较 。 
。 数 据 类 型 的 范围 : 包括 数字 、 时 间 / 日 历 、 描 述 ( 用 于 显示 和 报表 ) 等 。 生 成 更 多 图 像 
数据 类 型 ,可 以 增强 动态 显示 和 执行 报表 的 功能 ,有 利于 加 强 复杂 分 析 的 表达 。 


4. 管理 


初始 准备 .设置 和 连续 操作 需要 管理 功能 , 它 包 括 : 
。 定义 维 分 析 模型 ; 
。 生成 并 维护 元 数据 存储 ; 
。 访问 控制 和 基于 使 用 的 权限 ,此 处 集中 于 用 户 需 要 做 什么 ,以 及 谁 可 以 访问 分 析 模 
型 及 数据 ; 
。 从 数据 仓库 或 数据 集 市 加 载 分 析 模 型 ; 
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协调 行为 至 可 接受 的 层次 级 别 ,并 可 进行 不 受 干扰 的 分 析 ; 

。 为 增强 数据 库 的 性 能 ,或 者 为 了 修改 维 模型 ,或 是 为 了 修改 数据 ,重新 组 织 数据 库 ; 
管理 系统 的 各 个 部 分 ,包括 中 间 件 ,参照 结构 提供 的 方式 来 了 解 系统 管理 任务 的 
范围 ; 

把 数据 传送 给 客户 ,以 便 进一步 分 析 或 作 本 地 分 析 。 


5. 全 局 结构 


从 全 局 结构 上 看 ,OLAP 是 采用 关系 的 还 是 多 维 数据 存储 ,不 能 简单 地 作出 选择 。 各 
种 应 用 需求 才 是 判断 所 做 决策 是 否 正 确 的 标准 。 

当今 的 趋势 是 组 合 OLAP 服务 器 前 端 和 关系 存储 的 后 端 来 提供 OLAP 服务 。 此 配置 
是 将 综合 数据 嵌入 多 维 存储 而 放 在 前 端的 OLAP 服务 器 中 ,后 端的 细节 级 的 详细 数据 仍 采 
用 关系 存储 。 事 实 上 ,有 些 企业 刚 开 始 时 使 用 关系 存储 ,需要 时 才 再 添加 多 维 存储 。 

在 此 种 结构 的 配置 中 ,需要 对 经 常 访问 的 信息 和 经 常 使 用 的 查询 做 预计 算 、 概 括 、 聚 集 ， 
然后 将 其 存储 在 OLAP 服务 器 的 多 维 数据 存储 中 ,这 可 在 刚 开 始 从 数据 仓库 (或 数据 集 市 ) 
中 加 载 分 析 模 型 时 进行 。 复 杂 的 或 集约 计算 的 查询 ,以 及 复杂 的 基于 计算 的 数据 也 可 做 预 
处 理 并 存储 ,这 可 加 快 操作 速度 。 

对 于 从 少量 的 维 元 素 中 计算 出 的 信息 或 数据 ,如 果 不 需 经 常 访问 它们 , 则 只 在 收 到 查询 
时 才 计算 。 这 些 不 常 被 访问 的 数据 甚至 不 必 存 于 多 维 数据 存储 中 ,只 在 需要 的 时 候 , 由 
OLAP 服务 器 从 关系 数据 存储 中 检索 它们 。 

利用 管理 功能 可 以 在 多 维 数据 存储 中 存储 数据 或 结果 ,以便 处 理 后 继 请 求 ,这些 结果 是 
那些 不 常 被 访问 的 查询 产生 的 ,增强 了 总 体 性 能 ,并 只 在 需要 时 才 增 加 存储 。 

此 配置 也 支持 剖析 细节 数据 。 多 维 数据 存储 不 提供 细节 数据 ,通过 生成 请 求 来 检索 源 
于 关系 存储 的 细节 数据 。 

重要 的 问题 是 应 保持 各 种 应 用 的 目标 并 牢记 按 用 户 的 观点 来 处 理 数 据 。 一 个 良好 的 
OLAP 方案 应 在 以 上 所 讨论 的 5 个 方面 以 及 生存 期 的 各 种 开销 (如 初始 获取 和 安装 .训练 、 
维护 和 运行 ) 间 达成 适当 的 平衡 。 


习 是 


. 联机 分 析 处 理 (OLAP) 的 简单 定义 是 什么 ? 它 体现 的 特征 是 什么 ? 
. OLAP 准则 中 主要 准则 有 哪些 ? 

. 什么 是 维 ? 关系 数据 库 是 二 维 数据 吗 ? 如 何 理解 多 维 数据 ? 

. MDDB 与 RDBMS 有 什么 不 同 ? 说 明 各 自 特点 。 

. 比较 ROLAP 与 MOLAP 在 数据 存储 .技术 及 特点 上 的 不 同 。 

. HOLAP 数据 模型 的 特点 是 什么 ? 

. 举例 说 明 多 维 数据 显示 的 两 种 不 同方 法 。 

. 举例 说 明 多 维 类 型 结构 (MTS) 。 

. 举例 说 明 四 维 数据 显示 。 
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0. 举例 说 明 六 维 数据 显示 。 

1. 多 维 数据 显示 的 经 验 规则 是 什么 ? 

2. 举例 说 明 OLAP 的 多 维 数据 分 析 的 切片 操作 。 

3. 举例 说 明 OLAP 的 多 维 数据 分 析 的 切 块 操作 。 

14. 举例 说 明 OLAP 的 多 维 数据 分 析 的 钻 取 功 能 。 思 考 在 计算 机 中 如 何 实现 这 种 
功能 。 
5. 说 明 4 种 不 同 的 数据 分 析 模型 的 差别 。 

6. 举例 说 明 4 种 数据 分 析 模 型 的 应 用 ,以 及 如 何 提高 OLAP 分 析 能 力 。 
7. 解释 OLAP 逻辑 结构 。 

8. 解释 OLAP 两 种 物理 结构 ,并 说 明 它 与 数据 仓库 的 运行 结构 关系 。 
19. 解释 OLAP 的 Web 结构 。 

20. OLAP 分 析 工 具 应 该 具有 的 功能 有 哪些 ? 

21. OLAP 服务 引擎 应 满足 的 技术 特征 有 哪些 ? 
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4.1 数据 仓库 分 析 与 设计 


数据 仓库 分 析 与 设计 由 需求 分 析 、 概 念 模型 设计 、 人 逻辑 模型 设计 与 物理 模型 设计 4 个 部 
分 组 成 。 


4.1.1 需求 分 析 


数据 仓库 是 一 个 向 用 户 提供 战略 信息 的 环境 ,从 而 为 用 户 提供 决策 支持 。 数 据 仓库 不 
同 于 现行 的 事务 处 理 系统 (或 称 操作 型 系统 ) ,事务 处 理 系统 完成 每 日 的 业务 运行 ,对 于 用 户 
所 需 的 功能 、 信 息 内 容 、 使 用 方式 ,系统 都 有 清楚 的 定义 。 数 据 仓库 不 能 清楚 地 定义 用 户 的 
需求 , 即 不 能 准确 定义 用 户 真正 想 从 数据 仓库 中 得 到 哪些 信息 ,也 不 能 说 明 如 何 使 用 和 处 理 
这 些 信息 。 但 是 ,用 户 可 以 指出 哪些 是 重要 的 衡量 指标 ,如 何 将 各 种 信息 综合 起 来 为 战略 决 
策 服务 。 

例如 ,市场 部 经 理 感 兴趣 的 是 每 个 月 . 某 个 地 区 .按照 销售 部 门 .参照 历史 数据 和 计划 数 
据 , 了 解 新 产品 创造 多 少 利润 。 销 售 经 理 需 要 按照 产品 种 类 ,每 天 、 每 星期 、 每 月 进行 汇总 ， 
按照 销售 地 区 或 按 销 售 渠道 进行 统计 。 财 务 经 理 在 制定 费用 列表 时 ,要 与 预算 比较 ,按照 每 
月 、 每 季度 和 每 年 ,按照 预算 资金 定义 ,按照 地 区 ,对 全 公司 进行 汇总 统计 。 

数据 仓库 的 需求 分 析 是 数据 仓库 设计 的 基础 。 需 求 分 析 的 任务 是 通过 详细 调查 现实 世 
界 要 处 理 的 对 象 (企业 、 部 门 、 用 户 等 ) ,充分 了 解 原 系 统 ( 人 工 系 统 或 计算 机 系统 ) 的 工作 概 
况 , 明 确 用 户 的 各 种 需求 (包括 当前 的 需求 和 长 远 的 需求 ), 为 设计 数据 仓库 服务 。 概 括 地 
说 ,需求 分 析 要 明确 用 哪些 数据 经 过 分 析 来 实现 用 户 的 决策 支持 需求 。 

数据 仓库 用 户 包 括 高 层 主管 .部门 经 理 IT 专业 人 员 等 。 通 过 对 用 户 的 调查 ,对 数据 仓 
库 系统 需要 确定 的 问题 为 : 


1. 主题 域 


(1) 明确 对 于 决策 分 析 最 有 价值 的 主题 领域 有 哪些 ? 

(2) 每 个 主题 域 的 商业 维度 是 哪些 ? 每 个 维度 的 粒度 层次 有 哪些 ? 
(3) 制定 决策 的 商业 分 区 是 什么 ? 

(4) 不 同 地 区 需要 哪些 信息 来 制定 决策 ? 

(5) 对 哪个 区 域 提供 特定 的 商品 和 服务 ? 


2. 支持 决策 的 数据 来 源 


(1) 哪些 源 数据 (操作 型 ) 与 商业 主题 有 关 ? 
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(2) 在 已 有 报表 和 在 线 查 询 中 得 到 什么 样 的 信息 ? 
(3) 提供 决策 支持 的 细节 程度 是 怎样 的 ? 


3. 数据 仓库 的 成 功 标准 和 关键 性 能 指标 


(1) 衡量 数据 仓库 成 功 的 标准 是 什么 ? 

(2) 有 哪些 关键 的 性 能 指标 ? 如 何 监控 ? 

(3) 对 数据 仓库 的 期 望 是 什么 ? 

(4) 对 数据 仓库 的 预期 用 途 有 哪些 ? 

(5) 对 计划 中 的 数据 仓库 的 考虑 要 点 是 什么 ? 


4. 数据 量 与 更 新 频率 


(1) 数据 仓库 的 总 数据 量 有 多 少 ? 

(2) 决策 支持 所 需 的 数据 更 新 频率 是 多 少 ? 时 间 间 隔 是 多 长 ? 
(3) 每 种 决策 分 析 与 不 同时 间 的 标准 对 比如 何 ? 

(4) 数据 仓库 中 的 信息 需求 的 时 间 界 限 是 什么 ? 

通过 需求 分 析 , 明 确 决 策 支持 所 需要 的 数据 ,包括 如 下 内 容 : 


1. 数据 源 


建立 数据 仓库 需要 使 用 源 系 统 的 数据 ,从 这 些 源 系统 中 收集 、 合 并 和 整合 数据 ,正确 地 
转换 这 些 数据 , 装 入 到 数据 仓库 中 。 

数据 源 中 的 数据 包括 : 

(1) 可 用 的 数据 源 ; 

(2) 数据 源 的 数据 结构 ; 

(3) 数据 源 的 位 置 ; 

(4) 数据 源 的 计算 机 环境 ; 

(5) 数据 抽取 过 程 ; 

(6) 可 用 的 历史 数据 。 


2. 数据 转换 


数据 仓库 中 的 数据 是 为 决策 分 析 服 务 的 ,不同 于 源 系统 的 数据 为 业务 处 理 服务 。 这 样 
需要 决定 如 何 正 确 地 将 这 些 源 数据 转换 成 适合 数据 仓库 存储 的 数据 类 型 。 

在 需求 分 析 文 档 中 要 包括 数据 转换 的 细节 ,不 但 要 明确 从 什么 地 方 得 到 数据 ,并 描述 在 
将 数据 载 入 数据 仓库 之 前 的 合并 、 转 化 和 分 拆 的 过 程 。 


3. 数据 存储 
通过 对 用 户 的 采访 ,会 发 现 数据 仓库 所 需要 的 数据 的 详细 程度 ,包括 足够 的 关于 存储 需 
求 的 信息 ,估计 数据 仓库 需要 多 少 历史 和 存档 数据 。 


。66* 


4. 决策 分 析 


需求 分 析 文 档 应 该 包括 用 户 决 策 分 析 的 需求 , 即 : 
(1) 向 下 层 钻 取 分 析 ; 

(2) 向 上 层 钻 取 分 析 ; 

(3) 横向 钻 取 分 析 ; 

(4) 切片 分 析 ; 

(5) 特别 查询 报表 。 


4.1.2 概念 模型 设计 


将 需求 分 析 过 程 中 得 到 的 用 户 需求 抽象 为 信息 结构 , 即 为 概念 模型 。 它 是 从 客观 世界 
到 计算 机 世界 的 一 个 中 间 层 次 。 

概念 模型 的 特点 是 : 

(1) 能 真实 反映 现实 世界 ,能 满足 用 户 对 数据 的 分 析 , 达 到 决策 支持 的 要 求 ,是 现实 世 
界 的 一 个 真实 模型 。 

(2) 易于 理解 ,便利 和 用 户 交 换 意见 ,在 用 户 的 参与 下 ,能 有 效 地 完成 对 数据 仓库 的 成 
功 设计 。 

(3) 易于 更 改 , 当 用 户 需 求 发 生变 化 时 ,容易 对 概念 模型 修改 和 扩充 。 

(4) 易于 向 数据 仓库 的 数据 模型 ( 星 型 模型 ) 转 换 。 

概念 模型 最 常用 的 表示 方法 是 实体 -关系 法 (E-R 法 ) ,这 种 方法 用 E-R 图 作为 它 的 描述 
工具 。E-R 图 描述 的 是 实体 以 及 实体 之 间 的 联系 ,用 长 方形 表示 实体 ,在 数据 仓库 中 就 表示 
主题 ,在 框 内 写 上 主题 名 ,椭圆 形 表示 主题 的 属性 ,并 用 无 向 边 把 主题 与 其 属性 连接 起 来 ;用 
萎 形 表示 主题 之 间 的 联系 ,菱形 框 内 写 上 联系 的 名 字 , 用 无 向 边 把 萎 形 分 别 与 有 关 的 主题 连 
接 , 在 无 向 边 旁 标 上 联系 的 类 型 。 若 主题 之 间 的 联系 也 具有 属性 , 则 把 属性 和 菱形 也 用 无 向 
边 连接 上 。 

由 于 E-R 图 具有 良好 的 可 操作 性 ,形式 简单 ,易于 理解 ,便于 与 用 户 交流 ,对 客观 世界 
的 描述 能 力也 较 强 ,在 数据 库 设 计 方 面 得 到 广泛 的 应 用 。 因 为 目前 的 数据 仓库 一 般 建 立 在 
关系 数据 库 的 基础 之 上 ,与 数据 库 的 概念 模型 相 一 致 ,采用 E-R 图 作为 数据 仓库 的 概念 模 
型 仍然 是 较为 适合 的 。 

通过 一 个 例子 来 说 明 数 据 仓 库 的 概念 模型 的 设计 ,有 两 个 主题 : 商品 和 客户 。 主 题 也 
是 实体 。 

商品 有 如 下 属性 组 


。 商品 的 固有 信息 (商品 号 、 商 品名 、 类 别 、 价 格 等 ); 

。 商品 库存 信息 (商品 号 、 库 房 号 、 库 存量 、 日 期 等 ); 

。 商品 销售 信息 (商品 号 、 客 户 号 、 售 价 .销售 日 期 销售 量 等 ); 
。 其 他 信息 等 。 

客户 有 如 下 属性 组 : 


。 客户 固有 信息 (客户 号 ,客户 名 性别 ,年 龄 ,文化 程度 \ 住 址 、 电 话 等 ); 
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。 客户 购物 信息 (客户 号 .商品 号 、 售 价 、 购 买 日 期 .购买 量 等 ) 。 
其 中 商品 的 销售 信息 与 用 户 的 购物 信息 是 一 致 的 ,它们 是 两 个 主题 之 间 的 联系 。 
将 两 个 主题 的 概念 模型 用 E-R 图 画 出 ,如 图 4. 1 所 示 。 


商品 四 客户 固 
有 信息 有 信息 
f Te 本 
商品 | 一 (销售 信息 ) = 《购物 信息 | 客户 

1 
L 


客户 号 


图 4.1 商品 与 客户 两 主题 的 概念 模型 


4.1.3 逻辑 模型 设计 


逻辑 模型 设计 是 把 概念 模型 设计 好 的 E-R 图 转换 成 计算 机 所 支持 的 数据 模型 。 数 据 
仓库 在 计算 机 中 的 数据 模型 是 星 型 模型 。 这 样 数据 仓库 的 逻辑 模型 设计 主要 是 将 用 E-R 
图 表示 的 概念 模型 转换 成 星 型 模型 。 

数据 仓库 逻辑 模型 设计 的 主要 工作 为 ; 

(1) 主题 域 进行 概念 模型 (E-R 图 ) 到 逻辑 模型 ( 星 型 模型 ) 的 转换 ; 

(2) 粒度 层次 划分 ; 

(3) 关系 模式 定义 ; 

(4) 定义 记录 系统 。 


1. 主题 域 进行 概念 模型 到 逻辑 模型 的 转换 


在 概念 模型 设计 中 ,可 能 确定 了 多 个 主题 域 。 但 是 ,数据 仓库 的 设计 一 般 是 从 一 个 或 几 
个 主题 逐步 完成 的 。 选 择 第 一 个 主题 域 要 足够 大 ,使 该 主题 能 完成 围绕 该 主题 的 决策 分 析 
需要 。 但 要 足够 精练 ,便于 开发 和 较 快 实施 。 

例如 ,概念 模型 设计 时 ,确定 了 “商品 ”和 “客户 ”两 个 主题 。 其 中 “商品 ”对 于 商场 来 说 是 
更 基本 的 业务 对 象 。 商 品 的 业务 有 销售 .采购 .库存 等 ,其 中 商品 销售 是 最 主要 的 业务 ,是 进 
行 决策 分 析 的 最 主要 方面 。 因 而 商品 ”主题 比 “ 客 户 ” 主 题 更 重要 。 

星 型 模型 的 设计 步骤 如 下 : 

(1) 确定 决策 分 析 需 求 

数据 仓库 是 面向 决策 分 析 的 ,决策 需求 是 建立 多 维 数据 模型 的 依据 。 如 分 析 销 售 额 趋 
势 .对 比 商 品 销售 量 .促销 手段 对 销售 的 影响 等 。 

(2) 从 需求 中 识别 出 事实 

在 决策 主题 确定 的 情况 下 ,选择 或 设计 反映 决策 主题 业务 的 表 , 如 在 “商品 ”主题 中 ,以 
“销售 业务 "作为 事实 表 。 

(3) 确定 维 
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确定 影响 事实 的 各 种 因素 ,销售 业务 的 维 包括 商店 、 地 区 、 部 门 、 城 市 .时 间 、 商 品 \ 促 销 
等 ,如 图 4. 2 所 示 。 


(4) 确定 数据 汇总 的 水 平 人 

在 数据 仓库 中 的 数据 包括 汇总 的 数据 . 数 内 清 城市 
据 仓库 中 对 数据 不 同 粒度 的 综合 ,形成 了 多 层 地 区 
次 的 数据 结构 。 例 如 ,对 于 时 间 维 ,可 以 以 时 间 商店 
“年 "“ 月 "或 者 "日 "等 不 同 水 平 进 行 汇总 。 人 


(5) 设计 事实 表 和 维 表 

设计 事实 表 和 维 表 的 具体 属性 。 在 事实 表 
中 应 该 记录 哪些 属性 是 由 维 表 的 数量 决定 的 。 一 般 来 说 ,与 事实 表 相 关 的 维 表 的 数量 应 该 
适中 , 太 少 的 维 表 会 影响 查询 的 质量 ,用 户 得 不 到 需要 的 数据 , 太 多 的 维 表 又 会 影响 查询 的 
速度 。 

(6) 按 使 用 的 DBMS 和 分 析 用 户 工具 ,证 实 设计 方案 的 有 效 性 

根据 系统 使 用 的 DBMS ,确定 事实 表 和 维 表 的 具体 实现 。 由 于 不 同 的 DBMS 对 数据 存 
储 有 不 同 的 要 求 , 因 此 设计 方案 是 否 有 效 , 还 要 放 在 DBMS 中 进行 检验 。 

(7) 随 着 需求 变化 修改 设计 方案 

随 着 应 用 需求 的 变化 ,整个 数据 仓库 的 数据 模式 也 可 能 会 发 生变 化 。 因 此 在 设计 之 初 ， 
充分 考虑 数据 模型 的 可 修改 性 ,可 以 节省 系统 维护 的 代价 。 

从 概念 模型 的 E-R 图 转换 成 逻辑 模型 的 星 型 模型 ,实例 说 明 如 下 : 

(1) 业务 数据 的 E-R 图 


图 4.2 销售 业务 的 多 维 数据 


见 图 4.3。 
地 区 商店 销售 
地 区 号 一 一 名 商店 号 |! _m | 销售 日 期 
地 区 名 商店 名 商店 号 
地 址 商品 号 
城市 销售 数量 
省 ”| 销售 单位 
m 邮编 
地 区 号 
更 
商品 类 
1 [商品 存货 
商品 类 名 而 | 商品 号 寺 计 总 
部 门 号 商品 名 是 
商品 类 号 
数量 


图 4.3 实体 关系 (E-R) 图 


(2) E-R 图 向 多 维 表 的 转换 

该 问题 的 多 维 表 模 型 中 ,商品 维 包括 部 门 .商品 和 商品 大 类 ,地 区 维 包括 地 区 和 商店 ,忽略 
存货 ,而 只 注意 销售 事实 。 在 ER 图 中 不 出 现时 间 ,在 多 维 模型 中 增加 时 间 维 ,如 图 4.4 所 示 。 

在 多 维 模型 中 ,实体 与 维 之 间 建 立 映射 关系 ,联系 多 个 实体 的 实体 就 成 为 事实 ,此 处 销 
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售 实体 作为 事实 ,其 他 实体 作为 维 ,然后 用 维 关键 字 将 它 转换 为 星 型 模型 ,如 图 4. 5 所 示 。 


商品 维 地 区 维 时 间 维 
部 站 地 区 年 
t t t 
商品 大 类 商店 月 
t t 
商品 周 
日 


销售 事实 


图 4.4 E-R 图 向 多 维 模型 的 转换 


时 间 销售 事实 地 区 
时 间 键 | | 时 间 键 地 理 位 置 键 
时 间 说 明 地 理 位 置 键 地 理 位 置 名 
日 期 商品 键 地 区 号 
星期 销售 数量 商店 号 
月 级 别 号 
年 

商品 

商品 

商品 名 

部 门 号 

商品 类 号 

级 别 号 


图 4.5 利用 维 关键 字 制 定 的 星 型 模型 


其 中 地 区 维 是 综合 了 “地 区 ”和 “商店 ”两 个 实体 ,它们 有 一 个 层次 的 差别 。 将 “商店 ” 作 
为 1 级 ,“ 地 区 ”作为 2 级 ,该 维 的 关系 表 如 表 4. 1 所 示 。 


表 4.1 地 区 维 关系 表 


地 理 位 置 键 地 理 位 置 名 地 区 号 商店 号 级 别 号 
100 东北 地 区 1 2 
105 中 西部 2 多 
110 中 南 地 区 3 2 
ii5 沈阳 1 2204 由 
120 西安 2 2349 1 
下 长 春 1 2542 1 
130 广州 3 2211 1 


在 各 维 中 ,只 有 部 门 、 商 品类 、 地 区 、 商 店 的 编号 没有 具体 的 说 明 ,为 了 打印 报表 将 增加 
这 些 编号 的 名 称 说 明 , 即 部 门 名 、 商 店名 等 ,在 维 表 中 增加 这 些 说 明 , 即 修改 该 星 型 模型 ,如 
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图 4.6 所 示 。 


地 区 
地 理 位 置 刍 
时 间 地 理 位 置 名 
地 区 号 
时 间 刍 区 
寸 间 ] 地 区 名 
ee 商店 号 商品 
商店 名 下 
星期 Ee 商品 键 
月 号 商品 名 
年 部 门 号 
部 门 名 
销售 事实 商品 类 号 
于 间 妇 商品 类 名 
地 理 位 置 键 
商品 键 
销售 数量 
图 4.6 修改 后 的 星 型 模型 
2. 粒度 层次 划分 


所 谓 粒 度 是 指数 据 仓库 中 数据 单元 的 详细 程度 和 级 别 。 数 据 越 详细 ,粒度 越 小 ,层次 级 
别 就 越 低 ;数据 综合 度 越 高 ,粒度 越 大 ,层次 级 别 就 越 高 。 在 传统 的 操作 型 系统 中 ,对 数据 的 
处 理 和 操作 都 是 在 详细 数据 级 别 上 的 , 即 最 低级 的 粒度 。 但 是 在 数据 仓库 环境 中 主要 是 分 
析 型 处 理 , 粒 度 的 划分 将 直接 影响 数据 仓库 中 的 数据 量 以 及 所 适合 的 查询 类 型 。 一 般 需 要 
将 数据 划分 为 详细 数据 、 轻 度 综合 、 高 度 综合 三 级 或 更 多 级 粒度 。 不 同 粒度 级 别 的 数据 用 于 
不 同类 型 的 分 析 处 理 。 粒 度 的 划分 是 数据 仓库 设计 工作 的 一 项 重要 内 容 , 粒 度 划分 是 否 适 
当 是 影响 数据 仓库 性 能 的 一 个 重要 方面 。 

进行 粒度 划分 ,首先 要 确定 所 有 在 数据 仓库 中 建立 的 表 , 然 后 估计 每 个 表 的 大 约 行 数 。 
在 这 里 只 能 估计 一 个 上 下 限 。 需 要 明确 的 是 ,粒度 划分 的 决定 性 因素 并 非 总 的 数据 量 ,而 是 
总 的 行 数 。 因 为 对 数据 的 存 取 通 常 是 通过 存 取 索 引 来 实现 的 ,而 索引 是 对 应 表 的 行 来 组 织 
的 , 即 在 某 一 索引 中 每 一 行 总 有 一 个 索引 项 ,索引 的 大 小 只 与 表 的 总 行 数 有 关 ,而 与 表 的 数 
据 量 无 关 。 

如 商场 数据 仓库 的 例子 ,一 个 商场 可 以 经 营 上 千 种 甚至 更 多 的 商品 。 商 品 的 来 源 也 有 
许多 。 每 日 的 商品 销售 数据 更 是 不 计 其 数 ,每 时 每 刻 都 在 生成 新 的 记录 ,进入 “商品 ”主题 的 
数据 量 是 很 大 的 ,因而 最 好 采用 多 重 粒度 ,如 对 商品 销售 的 分 析 主 要 是 进行 销售 统计 以 及 销 
售 趋势 分 析 。 因 此 ,定义 商品 销售 数据 的 综合 层次 要 更 丰富 一 些 ,如 每 种 商品 ( 按 商品 号 ) 的 
周 统计 销售 数据 ,月 统计 销售 数据 以 及 季 统 计 销 售 数据 ,每 类 商品 ( 按 商品 类 型 ) 的 周 统计 销 
售 数据 .月 统计 销售 数据 以 及 季 统 计 销售 数据 ,等 等 。 


3. 关系 模式 定义 


数据 仓库 的 数据 最 终 将 以 关系 数据 库 显 示 和 存储 。 每 个 主题 都 是 由 多 个 表 来 实现 的 ， 
这 些 表 之 间 依 靠 主题 的 公共 码 键 联 系 在 一 起 ,形成 一 个 完整 的 主题 。 在 概念 模型 设计 时 就 
全 本 让 记 


确定 了 数据 仓库 的 基本 主题 ,并 对 每 个 主题 的 公共 码 键 、 基 本 内 容 等 做 了 描述 。 在 这 一 步 里 
将 要 对 选 定 的 当前 实施 的 主题 进行 模式 划分 ,形成 多 个 表 , 并 确定 各 个 表 的 关系 模式 。 

如 对 “商品 ”主题 ,考虑 粒度 划分 层次 ,有 如 下 关系 表 的 内 容 。 

公共 码 键 : 商品 号 。 

(1) 商品 固有 信息 : 

商品 表 ( 商 品 号 、 商 品名 、 类 型 颜色、 价格 ……) 一 一 细节 级 。 

(2) 商品 销售 信息 : 

销售 表 1( 商 品 号 、 客 户 号 、 销 售 日 期 . 售 价 、 销 售 量 ……) 一 一 细节 级 。 

销售 表 2( 商 品 号 .时 间 段 1 .销售 总 量 ……) 一 一 综合 级 。 


销售 表 2 商品 号 .时 间 段 ”销售 总 量 ……) 一 一 综合 级 。 
4. 定义 记录 系统 


数据 仓库 中 的 数据 来 源 于 多 个 已 经 存在 的 操作 型 系统 及 外 部 系统 。 定 义 记录 系统 是 建 
立 数据 仓库 中 的 数据 以 源 系统 中 的 数据 的 对 照 记录 。 由 于 各 个 源 系 统 的 数据 都 是 面向 应 用 
的 ,不 能 完整 地 描述 企业 中 的 主题 域 ,并 且 多 个 数据 源 的 数据 存在 着 许多 不 一 致 。 因 此 要 从 
数据 仓库 的 概念 模型 出 发 ,结合 主题 的 多 个 表 的 关系 模式 ,需要 确定 现 有 系统 的 哪些 数据 能 
较 好 地 适应 数据 仓库 的 需要 。 这 就 要 求 选择 最 完整 .最 及 时 、 最 准确 、 最 接近 外 部 实体 源 的 
数据 作为 记录 系统 ,同时 这 些 数 据 所 在 的 表 的 关系 模式 最 接近 构成 主题 的 多 个 表 的 关系 模 
式 。 记 录 系 统 的 定义 要 记 入 数据 仓库 的 元 数据 。 

以 商场 的 数据 仓库 为 例 , 商 品 主 题 的 有 关内 容 分 散在 原 有 的 销售 子 系统 .库存 子 
系统 、 采 购 子 系统 等 操作 型 的 数据 库 中 。 不 同 数据 源 有 关 商 品 的 信息 有 相交 的 部 分 ,可 
能 存在 不 一 致 的 信息 。 从 记录 系统 的 要 求 出 发 ,选择 原 有 的 分 散 数据 库 中 最 接近 外 部 实 
体 源 的 数据 ,定义 为 数据 仓库 的 记录 系统 。 商 品 主题 的 记录 系统 在 元 数据 中 的 描述 ,如 
表 4.2 所 示 。 


表 4.2 记录 系统 的 定义 


主题 名 属性 名 数据 源 系 统 源 表 名 源 属 性 名 
商品 商品 号 库存 子 系统 商品 商品 号 
商品 商品 名 库存 子 系统 商品 商品 名 
商品 类 别 库存 子 系统 商品 类 别 
商品 客户 号 销售 子 系统 客户 客户 号 
商品 销售 日 期 销售 子 系统 销售 日 期 
商品 售 价 销售 子 系统 销售 单价 
商品 销售 量 销售 子 系统 销售 数量 
商品 库存 量 库存 子 系统 库存 库存 量 
商品 库存 号 库存 子 系统 仓库 仓库 号 


注 : 数据 仓库 中 主题 中 的 属性 名 要 统一 规范 化 。 各 源 系 统 中 的 数据 库 中 相关 属性 名 ,去 掉 不 要 的 属性 项 ,作为 数 
据 仓 库 和 源 系统 的 对 比 说 明 (记录 系统 的 定义 ) 放 和 人 元 数据 中 。 
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4.1.4 物理 模型 设计 


数据 仓库 的 物理 模型 设计 是 为 逻辑 模型 设计 的 数据 模型 确定 一 个 最 适合 应 用 要 求 的 物 
理 结 构 ( 包 括 存储 结构 和 存 取 方 法 ) 。 

物理 模型 的 设计 所 做 的 工作 是 估计 存储 容量 ,确定 数据 的 存储 结构 ,确定 索引 ,确定 数 
据 存放 位 置 ,确定 存储 分 配 。 


1. 估计 存储 容量 


物理 模型 重点 在 于 物理 存储 , 随 着 数据 仓库 的 增 大 ,需要 知道 最 初 和 后 来 需要 多 少 存储 
空间 。 

(1) 对 每 一 个 数据 库 表 确 定数 据 量 

@ 行 (记录 行 ) 数 的 初始 估计 ; 

@ 行 的 平均 长 度 ; 

@ 估计 行 的 每 月 增长 数 ， 

@ 表 的 初始 大 小 ,以 兆 字 节 (MB) 计 算 ; 

@ 表 按时 间 6 个 月 和 12 个 月 存储 的 数据 大 小 。 

(2) 对 所 有 的 表 确 定 索引 

QO@ 索引 的 个 数 ， 

@ 索引 对 最 初 .6 个 月 和 12 个 月 存储 数据 所 需要 的 空间 。 

(3) 估计 临时 存储 

Q@ 排序 合并 需要 的 临时 空间 ; 

@ 准备 区 (大 量 数据 交换 的 场所 ) 内 的 临时 文件 ; 

@ 准备 区 内 的 永久 文件 。 


2. 确定 数据 的 存储 计划 


确定 数据 的 存储 计划 包括 : 

(1) 建立 聚集 (汇总 ) 计 划 

假设 数据 仓库 用 户 有 80% 的 查询 需要 汇总 信息 ,这 样 就 应 该 建立 汇总 表 。 如 果 数 据 仓 
库 只 存储 最 小 粒度 的 数据 ,每 次 查询 遍历 所 有 的 明细 记录 ,然后 生成 汇总 信息 ,就 要 用 去 大 
量 的 时 间 。 聚 集 (汇总 ) 数 据 表 必须 包括 在 物理 模型 中 。 应 该 建立 多 少 汇总 表 , 这 要 根据 查 

(2) 确定 数据 分 区 方案 

假设 有 4 个 维度 表 ,平均 每 个 表 有 50 行 ,对 于 这 些 维度 表 中 的 行 , 潜 在 的 事实 表 将 有 超 
过 600 万 行 记录 。 事 实 表 非 常 巨大 ,大 表 非 常 难 管理 。 

分 区 可 以 将 表 分 解 成 易于 管理 的 小 表 。 对 事实 表 的 分 区 并 不 是 简单 地 分 解数 量 。 一 般 
采用 按 垂直 分 区 或 水 平分 区 ( 即 按 不 同 维度 分 区 或 按时 间 顺 序 分 区 ) 制 定 分 区 准则 (如 按 产 
品 分 组 ) 。 除 事实 表 分 区 外 , 维 表 也 分 区 。 每 个 表 的 分 区 个 数 是 多 少 ,在 表 分 区 后 ,使 查询 知 
道 到 所 需 的 分 区 内 进行 。 
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(3) 建立 聚 类 选项 

在 数据 仓库 中 ,很 多 的 数据 访问 是 基于 对 大 量 数 据 的 顺序 访问 ,这 可 以 通过 聚 类 来 提高 
性 能 。 聚 类 是 将 相关 的 数据 放 在 存储 介质 的 相 邻 物理 块 上 管理 。 这 种 安排 使 相关 联 的 数据 
能 够 在 一 次 输入 操作 中 全 部 取出 ,提高 查询 效率 。 


3. 确定 索引 策略 


在 数据 仓库 中 由 于 数据 量 很 大 ,需要 对 数据 的 存 取 路 径 进 行 仔细 设计 和 选择 ,建立 专用 
的 复杂 的 索引 ,以 获得 最 高 的 存 取 效 率 , 因 为 在 数据 仓库 中 的 数据 是 不 常 更 新 的 ,也 就 是 说 ， 
每 个 数据 存储 是 稳定 的 。 虽 然 建立 索引 有 一 定 的 代价 ,但 是 一 旦 建立 就 几乎 不 需要 再 维护 
索引 。 

传统 的 数据 库 采 用 B-Tree 索引 , 它 是 一 个 高 效 的 索引 ,如 图 4. 7 所 示 。B 树 是 一 个 平 
衡 (balance) 树 , 即 每 个 叶 结 点 到 根 结 点 的 路 径 长 度 相同 。B 树 索引 是 一 个 多 级 索引 。 每 个 
非 叶 结 点 包括 多 个 按 顺序 排列 的 关键 字 值 : 

We Ka < Ks 

每 个 关键 字 有 一 个 对 应 的 指针 P;(i 二 1,2,…,n 一 1) 指 向 下 层 结 点 的 指针 桶 (多 个 关键 

字 和 对 应 的 指针 ) 最 小 关键 字 值 。 叶 结 点 的 关键 字 值 的 指针 指向 一 个 文件 记录 。 


A | R 
A|| N|| R v | 
上 C 7 [a 
A|lIB|I|D NIIO Q FRI|S 流 VIIXIIZ 
Adama Noble Sands 
Allen Ogdon Steward 
Baker Owens Suds 


图 4.7 传统 B-Tree 索引 


4. 确定 数据 存放 位 置 


数据 仓库 中 ,同一 个 主题 的 数据 并 不 要 求 存 放 在 相同 的 介质 上 。 在 物理 设计 时 ,常常 要 
按 数据 的 重要 程度 .使 用 频率 以 及 对 响应 时 间 的 要 求 进行 分 类 ,并 将 不 同类 的 数据 分 别 存储 
在 不 同 的 存储 设备 中 。 重 要 程度 高 .经常 存 取 并 对 响应 时 间 要 求 高 的 数据 就 存放 在 高 速 存 
储 设备 上 ,如 硬盘 ; 存 取 频率 低 或 对 存 取 响应 时 间 要 求 低 的 数据 则 可 以 放 在 低速 存储 设备 
上 ,如 磁盘 或 磁带 。 

数据 存放 位 置 的 确定 还 要 考虑 一 些 其 他 方法 ,如 : 决定 是 否 进 行 合 并 表 ; 是 否 对 一 些 经 
常 性 的 应 用 建立 数据 序列 ;对 常用 的 、 不 常 修改 的 表 或 属性 是 否 允 许 宛 余 存储 。 如 果 采 用 了 
这 些 技术 ,就 要 记 入 元 数据 。 

Re 0 


5. 确定 存储 分 配 


物理 存储 中 以 文件 . 块 和 记录 来 实现 。 一 个 文件 包括 很 多 块 ,每 个 块 包括 若干 条 记录 。 
文件 中 的 块 是 数据 库 的 数据 和 内 存 之 间 1/O 传输 的 基本 单位 ,在 那里 对 数据 进行 操作 。 

增 大 文件 中 的 抉 大 小 ,即将 更 多 的 记录 和 行 可 以 放 入 一 个 块 中 ,因为 一 次 读 操作 可 以 读 
人 更 多 的 记录 ,大 块 减少 了 读 操作 的 次 数 。 但 是 ,大 块 结构 对 读 取 记录 少时 ,操作 系统 也 将 
读 人 很 多 不 必要 的 信息 到 内 存 中 ,影响 了 内 存 管理 。 

用 一 个 简 例 来 说 明 逻 辑 模型 和 物理 模型 的 内 容 , 见 图 4. 8 所 示 。 


产品 维 表 


名 称 类 型 | 长 度 | 注释 
站 并 产品 维 表 包括 公司 所 有 产品 的 信息 
产品 名 
库存 单位 Product-Key | integer | 10 | 主键 
品牌 Product-Name | char | 25 | 产品 名 称 
Product-SKu | char 20 库存 单位 
订单 事实 表 销售 员 维 表 包括 不 同 地 区 的 所 有 销售 员 信息 
订单 刍 Salpers-Key integer | 15 主键 
订单 名 Salpers-Name | char | 30 | 销售 员 姓 名 
/ ' 品 旬 Territory char | 20 销售 员 所 在 区 域 
| a Region char 20 所 在 地 区 
订单 成 本 订单 事实 表 包括 公司 收 到 的 所 有 订单 
Order-Key integer | 10 “| 订单 键 
Order-Name | char 20 订单 名 称 
销售 员 维 表 Product-ref integer | 10 参考 产品 主键 
员 刍 Salpers-ref integer | 15 参考 销售 员 主 键 
地 域 Order-Amount | Num ”| 8，2 | 销售 额 
地 区 Order-Cost Num | 8，2 | 订单 成 本 
(a) 逻辑 模型 (b) 物理 模型 


图 4.8 逻辑 模型 与 物理 模型 


4.1.5 数据 仓库 的 索引 技术 


索引 技术 在 于 提高 数据 仓库 访问 效率 。 下 面 介绍 3 种 重要 的 数据 仓库 索引 技术 : 位 索 
引 技 术 、 标 识 技术 与 广义 索引 。 


1. 位 索引 技术 


Sybase 公司 推出 的 数据 仓库 Sybase IQ, 采 用 位 索引 (Bit-Wise) 技 术 , 它 在 处 理 复 杂 的 
查询 时 , 比 传统 数据 库 索 引 B-Tree 有 了 突破 。 
(1) Bit-Wise 索引 技术 
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Bit-Wise 索 引 技术 在 存储 数据 的 方式 上 与 传统 的 关系 数据 库 有 所 不 同 , 它 不 是 以 * 行 
记录 ”而 是 按 “ 列 ”为 单位 存储 数据 , 即 对 数据 进行 垂直 分 割 。 对 于 每 一 个 记录 的 字段 满 
足 查 询 条 件 的 真 假 值 用 1 或 0 的 方式 表示 ,或 者 用 该 字段 中 不 同 取 值 ( 即 多 位 二 进 制 ) 来 

一 般 DSS 查询 往往 仅 涉及 大 量 数据 记录 中 的 少数 列 , 因 而 不 需要 访问 原始 数据 就 能 快 
速 获得 查询 结果 。 显 然 ,利用 字段 的 不 同 取 值 也 能 快速 进行 数据 聚 类 、 分 组 , 求 最 大 值 , 求 最 
小 值 及 求 平均 值 等 。 


对 于 高 度 可 选择 的 数 ( 称 高 基数 ) ,如 姓名 或 地 址 等 | 项 目 | ”性别 保险 | 州 
可 能 有 数 万 个 选择 值 , 用 (1,0) 真 假 值 来 索引 是 不 合 | MA 
适 的 。 2 M N CA 
例如 ,检索 “美国 加 州 有 多 少男 性 未 申请 保险 ?” 3 了 到 上 上 
在 数据 库 中 ,每 个 记录 中 对 于 性 别 是 男性 的 字段 取 [4 到 机 A 


值 为 1, 女性 为 0, 是 加 州 的 字段 取 值 为 1, 其 他 为 0, 对 于 | 


未 参加 保险 的 字段 取 值 为 1, 参 加 的 取 值 为 0。 该 3 列 字 男 | 未 保险 | 加 州 
段 值 为 1 或 0。 对 三 字段 均 满 足 条 件 记录 进行 累加 。 对 1 0 0 
下 面 简单 数据 库 利 用 Bit-Wise 技术 得 到 两 个 记录 满足 1 1 1 了 
条 件 ,如 图 4.9 所 示 。 上 | oi, 
(2) B-Tree 技术 与 Bit-Wise 索引 技术 对 比 1 1 1 


Bit-Wise 索引 技术 比 B-Tree 技术 能 提高 相应 速度 图 4.9 Bit-Wise 索引 
10 一 100 倍 。 
@ B-Tree 索引 技术 特点 
。 按 行 存储 数据 ; 
。 针对 具体 查询 建立 查询 驱动 的 索引 机 制 ; 
。 存储 被 索引 的 字段 数据 ; 
。 一 列 人 允许 一 个 索引 ; 
。 适合 高 基数 字段 。 
@ BitrWise 索 引 技术 特点 
按 列 存储 数据 ; 
针对 实际 特征 建 索引 ， 
不 存储 实际 索引 字段 内 容 ; 
一 列 允 许多 个 索引 ; 
数据 压缩 技术 和 位 操作 技术 ; 
适合 低 基数 字段 ,兼顾 高 基数 字段 。 
@ 实例 比较 
对 于 检索 “美国 加 州 有 多 少男 性 未 申请 保险 ?” 为 例 ,假设 数据 库 有 10M 个 记录 ,每 个 记 
录 长 800B, 每 一 页 16KB。 
。 按 传统 的 关系 数据 库 的 检索 : 需要 经 过 50 万 次 I/O 操作 。 
/et 


。 按 Bit-Wise 检索 : 对 于 10M 个 记录 建立 3 列 的 Bit-Wise 索引 , 共 占 (10Mb * 3/8)B 
的 空间 ,每 页 16KB, 则 这 些 索引 仅 占 235 页 。 存 取 这 些 索 引 只 要 进行 235 次 IO 操 
作 即 可 。 

@ B-Tree 不 适合 数据 仓库 

。 B-Tree 只 适合 高 基数 (cardinality) 字 段 : 对 于 高 基数 字段 ,如 物资 编号 .顾客 编号 等 

具有 惟一 的 数据 值 ,B-Tree 很 适合 。 但 对 于 低 基 数字 段 就 毫 无 价值 ,如 性 别 字段 只 

有 男女 两 个 值 ,建立 B-Tree 索引 就 没有 意义 。 

B-Tree 索引 增加 了 在 数据 仓库 中 构造 和 维护 索引 的 代价 : 由 于 B-Tree 索引 包含 实 

际 数据 和 其 他 信息 (如 指针 等 ) ,因而 使 得 索引 需 占 用 一 定 的 空间 和 时 间 。 如 果 构 造 

所 有 相关 的 索引 ,数据 仓库 就 会 占 2 一 4 倍 原始 数据 空间 。 当 成 批 插入 删除 时 ,索引 

就 非常 敏感 ,有 可 能 失去 平衡 并 降低 性 能 。 通 常 来 说 ,10% ~~15% 的 数据 修改 会 导 

臻 重建 索引 。 

B-Tree 索引 不 适合 复杂 查询 : B-Tree 用 于 简单 查询 及 已 知 公共 存 取 路 径 的 环境 下 

才 有 优点 ,而 在 数据 仓库 应 用 中 ,通常 是 复杂 的 查询 ,并 经 常 带 有 分 组 及 聚合 条 件 。 

此 时 ,B-Tree 索引 往往 是 无 能 为 力 的 。 


2， 标识 技术 


使 用 标准 的 数据 库 技 术 来 储存 数据 仓库 是 非常 昂贵 的 。 较 好 的 替代 方法 是 用 基于 标识 
的 技术 来 储存 数据 仓库 。 这 种 技术 根本 不 同 于 关系 数据 库 技 术 。 利 用 关系 数据 库 技术 , 当 
加 入 一 个 记录 到 系统 中 时 ,会 追加 此 数据 的 一 个 物理 代表 块 到 磁盘 上 。 假 设 一 些 标准 数据 
库 管理 系统 中 的 样本 记录 如 表 4. 3 所 示 。 


表 4.3 样本 记录 
姓名 籍贯 职称 年 龄 姓名 籍贯 职称 年 龄 
记录 1 陈 文 东 江西 教授 56 | 记录 6 赵 玉 吉林 讲师 32 
记录 2 何 玉 辉 河北 讲师 32 | 记录 7 黄 小 斌 江苏 讲师 28 
记录 3 李 宝 湖南 副教授 37 | 记录 8 赛 英 花 山东 副教授 32 
记录 4 施 东 江苏 ， ”讲师 28 | 记录 9 彭 宏 江西 ” 讲师 25 
记录 5 曹 文 杰 ”湖南 “副教授 。 36 | 记录 10 ”应 宇宙 湖南 ”教授 42 


每 次 完成 一 个 事务 时 ,就 会 添加 一 个 新 记录 到 标准 的 数据 库 中 。 数 据 的 缩放 比例 是 线 
性 的 ,因为 数据 量 是 存放 记录 的 一 个 函数 。 但 是 在 如 表 4. 3 所 示 的 小 型 的 ,简单 的 数据 库 查 
看 数据 记录 时 ,会 发 现在 整个 数据 库 中 有 数据 宛 余 。 例 如 籍贯 “湖南 ”出现 了 3 次 ,年龄 “32” 
则 出 现 了 3 次 ,职称 “讲师 ?出现 了 5 次 。 因 此 这 个 数据 库 中 有 明显 的 物理 宛 余 。 

假设 可 以 为 此 数据 库 中 的 每 个 实体 创建 一 个 标识 .“ 江 西 ? 在 籍贯 中 是 01 标识 。“28” 
在 年 龄 中 是 02 标识 。“ 讲 师 ” 在 职称 名 中 有 一 个 03 标识 。 上 面 的 数据 库 可 以 被 简化 为 一 系 
列 标识 ,如 表 4.4 所 示 。 


二 


姓名 籍贯 职称 年 龄 姓名 籍贯 职称 年 龄 
陈 文 东 01 ”江西 01 教授 01 25 01 赵 玉 ”06 ”山东 06 42 06 
癌 玉 辉 02 河北 02 副教授 02 28 02 黄 小 斌 07 56 07 
李 宝 03 湖南 03 讲师 03 32 03 赛 英 花 08 
施 东 04 ”江苏 04 36 04 嘉宏 09 
曹 文 杰 05 ”吉林 05 37 05 廖 宇 宙 10 


一 旦 建立 完 这 些 标识 ,数据 库 可 被 精简 ,如 表 4.5 所 示 。 


记录 1 01,01,01,07 
记录 2 02,02,03,03 
记录 3 03,03,02,05 
记录 4 04,04,03,02 
记录 5 05,03,02,05 


记录 6 06,05,03,03 
记录 7 07,04,03,02 
记录 8 08,06,02,03 
记录 9 09,01,03,01 
记录 10 10,03,01,06 


记录 被 标识 以 后 ,存储 这 些 记录 的 空间 将 大 大 缩小 。 此 外 ,数据 量 越 大 (也 就 是 记录 量 
越 多 ) ,标准 的 数据 库 和 标识 数据 库 的 存储 需求 差异 也 就 越 大 。 换 句 话说 ,记录 量 越 多 ,基于 
标识 的 数据 库 的 优势 就 越 明显 。 使 用 标识 数据 库 技术 时 ,有 几 项 是 非常 有 利 的 应 用 : 

。 大 量 压 缩 数据 。 

。 数据 越 多 ,标识 数据 比 标准 的 、 基 于 记录 的 数据 更 有 利 。 

。 因为 数据 被 大 量 压缩 ,所 以 整个 数据 库 可 以 存放 在 内 存 中 。 

。 可 以 索引 所 有 的 行 和 所 有 的 列 。 

一 旦 将 基于 标识 的 数据 库存 放 在 内 存 中 ,处 理 速度 会 得 到 很 大 的 提高 。 根 据 不 同 的 细 
节 ,查询 的 速度 可 以 提高 2 到 3 个 (甚至 更 多 ) 数 量 级 。 提 高 了 处 理 速度 ,很 多 工作 就 会 成 为 
现实 ,例如 ,分 析 员 可 以 很 容易 地 进行 扫描 整个 数据 库 的 查询 。 

大 量 压缩 数据 的 另 一 个 主要 益处 就 是 索引 所 有 属性 成 为 可 能 。 一旦 可 以 索引 所 有 属 
性 ,对 数据 仓库 的 探索 分 析 就 没有 限制 。 分 析 员 可 以 用 任何 需要 的 方式 查看 任意 字段 。 查 
询 的 速度 就 像 这 样 : 如 果 分 析 员 要 精练 结果 ,可 以 重新 书写 一 个 查询 公式 并 重新 运行 。 所 
有 的 这 些 重 写 公式 表示 和 重新 计算 都 可 以 在 很 少 的 时 间 里 完成 ,这 个 时 间 远 远 少 于 标准 的 
基于 记录 的 数据 库 所 需要 的 时 间 。 事 实 上 ,探索 数据 仓库 的 功效 依赖 于 基于 标识 的 数据 库 
技术 。 

3. 广义 索引 


对 数据 仓库 的 一 个 很 广泛 的 应 用 问题 是 “这 个 月 销售 最 好 和 最 差 的 10 种 商品 是 哪些 ?” 
可 以 设计 这 么 一 块 "黑板 ”, 在 上 面 标明 当月 销售 最 好 和 最 差 的 10 种 商品 的 名 称 或 者 它们 相 
关 记 录 的 存放 地 址 。 这 块 “黑板 ”就 是 人 们 所 说 的 “广义 索引 ”。 
数据 仓库 的 数据 量 巨大 ,所 以 要 依靠 各 种 各 样 的 索引 技术 来 提高 涉及 大 数据 量 的 查询 
速度 。“ 广 义 索引 ?对 于 处 理 如 上 的 最 值 (最 大 值 或 最 小 值 ) 问 题 时 ,其 效果 是 非常 明显 的 ,也 
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较 易 于 实现 。 在 从 操作 型 环境 抽取 数据 并 向 数据 仓库 中 装载 的 同时 ,就 可 以 根据 用 户 的 需 
要 建立 许多 这 样 的 “广义 索引 ?。 每 次 数据 仓库 装载 时 ,就 重新 生成 这 些 “ 广 义 索引 ”的 内 容 。 
这 样 并 不 需要 为 了 建立 “广义 索引 ?而 去 扫描 数据 仓库 。 而 且 这 些 索 引 都 非常 小 ,开销 也 是 
相当 小 ,但 它 给 应 用 所 带 来 的 便利 却 是 显而易见 的 。 对 于 一 些 经 常 性 的 查询 ,利用 一 个 规模 
小 得 多 的 “广义 索引 ?总 比 去 搜索 一 个 大 得 多 的 关系 表 方便 得 多 。 

但 是 ,同时 出 现 的 问题 就 是 , 随 着 数据 仓库 “年 龄 "的 增长 以 及 数据 仓库 随时 间 变 化 的 特 
性 ,这 种 “广义 索引 ”的 数目 也 就 会 成 倍 的 增长 ,管理 这 些 数 目 多 、 规 模 小 、 名 目 繁多 的 “广义 
索引 ”也 就 成 为 一 件 非 常 棘手 的 事情 。 这 就 需要 在 元 数据 中 完整 地 定义 说 明 这 些 “ 广 义 索 
引 ”。 应 用 需要 时 ,首先 去 查找 元 数据 ,再 去 查找 相应 的 “广义 索引 ”或 表 。 


4.2 数据 仓库 开发 


4.2.1 数据 仓库 开发 过 程 


数据 仓库 的 开发 主要 是 围绕 数据 仓库 功能 展开 的 。 数 据 仓 库 的 主要 功能 包括 数据 获 
取 数据 存储 和 决策 分 析 , 这 3 个 功能 模块 组 成 了 数据 仓库 的 体系 结构 。 数 据 仓 库 随 着 决策 
需求 的 扩大 ,数据 仓库 的 数据 将 迅速 增长 。 这 样 ,数据 仓库 的 开发 要 适应 这 种 变化 ,采用 螺 
旋 式 周期 性 的 开发 方法 比较 合适 。 

数据 仓库 的 开发 过 程 分 为 4 个 阶段 12 个 具体 步骤 ,如 图 4. 10 所 示 。 


图 4.10 数据 仓库 开发 过 程 
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4.2.1.1 分 析 与 设计 阶段 


数据 仓库 开发 需要 明确 如 下 问题 ; 

(1) 数据 仓库 开发 的 范围 多 大 ? 包括 数据 的 范围 技术 的 作用 (要 用 到 新 技术 吗 ?) 以 及 
时 间 上 的 考虑 (开发 工作 需要 在 多 长 时 间 完 成 ?) 。 

(2) 企业 业务 方面 的 驱动 因素 是 什么 ,要 解决 的 业务 问题 是 什么 ? 

(3) 开发 的 数据 仓库 的 决策 支持 能 力 是 什么 ? 

数据 仓库 开发 的 分 析 和 设计 阶段 包括 需求 分 析 、 概 念 设计 、 惧 辑 设计 和 物理 设计 4 个 
步骤 。 


1. 需求 分 析 


数据 仓库 的 需求 分 析 是 根据 用 户 的 决策 支持 需求 ,确定 决策 主题 域 , 并 分 析 主 题 域 的 商 
业 维 度 ,同时 分 析 支 持 决策 的 数据 来 源 , 以 及 向 决策 主题 数据 的 转换 ;整个 数据 仓库 的 数据 
量 大 小 以 及 数据 更 新 的 频率 确定 决策 分 析 方法 等 。 

需求 分 析 是 设计 和 实现 数据 仓库 的 基础 。 例 如 ,银行 业 数据 仓库 的 需求 分 析 包 括 以 下 
几 点 。 

(1) 决策 支持 需求 : 在 竞争 性 的 市 场 中 银行 决策 者 认识 到 ,必须 利用 其 日 常 活动 中 包 
含 的 大 量 信息 ,预测 信用 卡 使 用 状况 和 利润 率 的 能 力 。 

(2) 信息 需求 : 对 最 终 用 户 进行 调查 ,以 确定 哪些 信息 有 助 于 销售 或 有 助 于 调整 银行 
的 信息 政策 。 

(3) 业务 需求 : 定义 销售 信息 处 理 、 信 息 的 类 型 和 销售 渠道 。 

(4) 用 户 访 问 需求 : 确定 用 户 访问 数据 仓库 所 需 的 时 间 ,以 及 数据 访问 的 偏好 。 

(5) 选择 主题 : 选择 一 个 主题 区 一 一 “信用 卡 ”。 

(6) 初始 规模 : 确定 主题 域 的 数据 量 。 


2. 概念 设计 


在 数据 仓库 中 的 概念 模型 设计 中 ,需要 确定 主题 域 及 其 内 容 。 利 用 需求 分 析 的 结果 建 
立 概 念 模型 , 即 对 每 个 决策 主题 与 属性 以 及 主题 之 间 的 关系 用 E-R 图 模型 表示 出 来 。E-R 
图 能 有 效 地 将 现实 世界 表示 成 信息 世界 ,也 便利 向 计算 机 的 表示 形式 进行 转化 。 

例如 ,银行 业 信用 卡 主题 域 分 析 如 下 。 

(1) 主题 域 范围 : 确定 了 “信用 卡 ” 主 题 域 ,对 某 些 实体 ,如 顾客 ,要 求 在 这 一 主题 域 发 
挥 作用 。 

(2) 所 需 细节 水 平 : 为 支持 概括 和 趋势 计算 ,需要 存 人 持 卡 人 的 日 常 活动 。 

(3) 初步 概括 表 : 对 “信用 卡 ” 主 题 需要 建立 初步 概括 表 , 按 行业 和 地 理 特征 进行 概括 ， 
对 概括 时 段 确定 为 每 月 。 


3. 逻辑 设计 
在 逻辑 模型 设计 中 ,需要 分 析 主 题 域 ,将 概念 模型 (E-R 图 ) 转 换 成 逻辑 模型 , 即 计 算 机 
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表示 的 数据 模型 。 数 据 仓库 的 数据 模型 一 般 采用 星 型 模型 。 

逻辑 设计 中 还 需要 进行 数据 粒度 层次 的 划分 , 星 型 模型 中 事实 表 、 维 表 的 关系 模式 定 
义 , 数 据 转换 的 记录 系统 的 定义 。 

银行 业 信用 卡 主题 的 逻辑 模型 是 多 维 表 的 星 型 模型 ,需要 将 概念 模型 的 ER 图 转换 成 
星 型 模型 。 


4. 物理 设计 


数据 仓库 的 物理 模型 设计 是 对 逻辑 模型 设计 的 数据 模型 确定 物理 存储 结构 和 存 取 方 
法 。 数 据 仓库 的 星 型 模型 在 计算 机 中 仍 用 关系 型 数据 库存 储 。 

物理 设计 还 需要 进行 存储 容量 的 估计 ;确定 数据 存储 的 计划 ;确定 索引 策略 ;确定 数据 
存放 位 置 以 及 确定 存储 分 配 。 

例如 ,银行 业 的 物理 数据 库 设 计 包 括 以 下 内 容 。 

(1) 数据 库 设计 : 对 主题 中 的 事实 表 和 维 表 设计 数据 库存 储 结构 和 存放 位 置 。 

(2) 概括 表 : 按 行业 代码 或 按 月 建立 一 个 概括 表 。 

(3) 索引 : 对 数据 仓库 中 的 数据 建立 多 种 索引 。 

(4) 建立 备份 和 恢复 准则 : 使 数据 仓库 能 适应 不 同 的 备份 和 恢复 。 为 了 防止 数据 损 
失 ,需要 对 文件 进行 备份 。 


4.2.1.2 数据 获取 阶段 


数据 获取 阶段 包括 数据 抽取 、 数 据 转换 、 数 据 装载 3 个 步骤 。 

数据 仓库 中 的 数据 主要 来 源 于 事务 处 理 (操作 型 ) 系 统 中 的 数据 。 由 于 数据 仓库 对 数据 
的 使 用 目的 与 事务 处 理 对 数据 的 使 用 目的 不 同 , 这 就 形成 了 对 事务 处 理 系 统 中 的 数据 的 抽 
取 , 并 进行 转换 , 按 数据 仓库 的 数据 存储 要 求 装载 数据 。 

1. 数据 抽取 

数据 抽取 工作 主要 进行 数据 源 的 确认 ,确定 数据 抽取 技术 ,确认 数据 抽取 频率 ,按照 时 
间 要 求 抽取 数据 。 


由 于 源 系 统 的 差异 性 ,如 计算 机 平台 、 操 作 系统 、 数 据 库 管理 系统 、 网 络 协议 等 的 不 同 造 
成 了 抽取 数据 的 困难 。 


2. 数据 转换 


数据 抽取 得 到 的 数据 是 不 能 直接 存 入 数据 仓库 的 。 数 据 转换 工作 包括 : 数据 格式 的 修 
正 、 字 段 的 解码 ,单个 字段 的 分 离 、 信 息 的 合并 、 变 量 单位 的 转化 ,时 间 的 转化 ,数据 汇总 等 。 


3. 数据 装载 
经 过 数据 转换 的 数据 装 和 数据 仓库 有 3 种 类 型 ; 
。 初始 装载 : 第 一 次 装 和 人 数据 仓库 。 


。 增 量 装载 : 根据 定期 应 用 需求 装 入 数据 仓库 。 
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。 完全 刷新 : 完全 删除 现 有 数据 ,重新 装 和 人 新 的 数据 。 

数据 装载 时 ,一 般 利 用 选 定 的 批量 装载 程序 ,目的 是 高 效 和 及 时 地 把 数据 装载 到 数据 仓 
库 中 去 。 

例如 ,银行 业 的 数据 仓库 的 数据 获取 阶段 包括 : 

(1) 候选 数据 源 : 给 定数 据 需 求 和 粒度 需求 ,指定 日 常事 务 文件 为 关键 数据 源 。 

(2) 完整 性 : 检查 数据 来 源 的 完整 性 。 

(3) 评价 : 对 数据 源 进 行 评价 。 

(4) 数据 转换 : 将 数据 源 中 的 数据 变换 到 目的 地 去 ,同时 保持 数据 准确 性 和 完整 性 的 
过 程 。 

(5) 数据 装载 : 将 数据 转换 后 的 数据 加 载 到 目的 文件 和 平台 上 去 。 可 以 用 查询 来 验证 
业务 报表 的 内 容 。 

(6) 评审 过 程 : 开发 评审 程序 来 验证 是 否 所 有 的 信用 卡 事务 都 发 生 在 指定 的 时 间 期 
限 内 。 

(7) 元 数据 的 加 载 : 除 加 载 一 般 的 元 数据 外 ,还 要 加 载 有 特别 用 途 的 元 数据 ,如 在 特殊 
环境 中 ,反映 数据 变化 的 元 数据 。 

(8) 系统 测试 : 系统 测试 用 以 保证 各 部 分 能 相互 配合 ,并 维护 数据 的 完整 性 。 


4.2.1.3 决策 支持 阶段 


数据 仓库 的 建立 就 是 要 达到 决策 支持 的 目的 。 决 策 支 持 阶段 包括 信息 查询 和 知识 探索 
两 个 步骤 。 

数据 仓库 有 两 类 用 户 ,一 类 是 信息 查询 者 ,是 数据 仓库 的 主要 用 户 , 用 一 种 可 预测 的 、 重 
复 性 的 方式 使 用 数据 仓库 ,以 达到 常规 决策 支持 要 求 。 男 一 类 是 知识 探索 者 ,是 数据 仓库 的 
少量 用 户 , 用 一 种 完全 不 可 预测 的 非 重 复 性 的 方式 使 用 数据 仓库 ,以 达到 挖掘 未 知 知识 的 要 
求 , 取 得 更 大 决策 支持 的 效果 。 这 两 类 不 同 的 用 户 使 用 数据 仓库 ,需要 具有 不 同 的 性 能 或 工 
具 来 满足 要 求 。 


1, 信息 查询 


信息 查询 者 使 用 数据 仓库 能 发 现 目前 存在 的 问题 ,例如 ,发 现 公 司 正在 流失 客户 。 

为 适应 信息 查询 者 的 要 求 ,数据 仓库 一 般 采 用 如 下 的 方法 提高 信息 查询 效率 : 

(1) 创建 数据 陈列 

对 一 些 分 散 存放 的 不 同 物理 位 置 的 数据 (如 不 同月 份 的 数据 ) ,创建 一 个 数据 陈列 ,将 相 
关 的 数据 (每 月 的 数据 ) 放 在 同一 个 物理 位 置 上 。 这 样 可 以 提高 可 预测 的 和 有 规律 的 数据 查 
询 效果 。 

(2) 预 连 接 表格 

对 于 两 个 或 多 个 表格 共享 一 个 公用 链 或 者 共同 使 用 的 表格 ,可 以 将 多 个 表格 合并 在 一 
个 物理 表格 中 ,提高 数据 的 访问 效率 。 

(3) 预 聚集 数据 

利用 ”滚动 概括 ?结构 来 组 织 数据 。 当 数据 输入 到 数据 仓库 时 ,以 每 天 为 基础 存储 数据 。 
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在 一 周 结束 时 ,以 每 周 为 基础 存储 数据 ( 即 累加 每 天 的 数据 )。 月 末 时 , 则 以 每 月 为 基础 存储 
数据 。 通 过 这 种 方式 来 组 织 数据 ,可 以 极 大 地 减少 存储 数据 所 需要 的 空间 并 潜在 地 提高 
性 能 。 

(4) 聚 类 数据 

聚 类 将 数据 放置 在 同一 地 点 ,这样 可 以 提高 对 聚 类 数据 的 查询 。 


2. 知识 探索 


知识 探索 者 使 用 数据 仓库 能 对 发 现 的 问题 找 出 原因 。 例 如 , 找 出 流失 客户 的 原因 。 

知识 探索 者 通常 用 随意 的 、 非 重复 的 方式 来 查看 大 量 的 数据 。 为 满足 探索 者 对 大 量 数 
据 的 需要 ,一 般 创 建 一 个 单独 的 探索 仓库 。 这 样 , 既 不 影响 数据 仓库 的 常规 用 户 ,又 可 以 采 
用 ”标识 技术 ”把 数据 压缩 到 能 将 数据 放置 在 内 存 中 ,提高 数据 分 析 速度 。 

知识 探索 者 一 般 使 用 一 些 模型 帮助 决策 分 析 ,例如 客户 分 段 ,其 诈 监 测 、 信 用 风险 、 客 户 
生存 期 .渠道 响应 .推销 响应 等 模型 。 通 过 模型 的 计算 来 得 出 一 些 有 价值 的 商业 知识 。 

知识 探索 者 大 量 采用 数据 挖掘 工具 来 获取 商业 知识 。 例 如 ,通过 数据 挖掘 得 到 如 下 一 
些 知 识 ， 

”哪些 商品 一 起 销售 好 ? 

。 哪些 商业 事务 处 理 可 能 带 有 欺诈 性 ? 

。 高 价值 客户 的 共同 点 是 什么 ? 

知识 探索 者 获取 的 知识 为 企业 领导 者 提供 决策 支持 ,达到 保留 客户 ,减少 欺诈 .提高 公 
司 利润 等 具有 重要 作用 。 


4.2.1.4 维护 与 评估 阶段 
该 阶段 包括 数据 仓库 增长 ,数据 仓库 维护 ,数据 仓库 评估 3 个 步骤 。 
1. 数据 仓库 增长 


数据 仓库 建立 以 后 , 随 着 用 户 的 不 断 增 加 ,时 间 的 增长 ,用 户 查询 需求 更 多 ,数据 会 迅速 
增长 。 造 成 这 种 增长 的 原因 有 : 详细 数据 和 汇总 数据 的 增加 ,历史 数据 的 增加 ;满足 更 多 用 
户 决 策 需求 ,数据 的 增加 等 。 数 据 仓库 在 使 用 后 不 断 增长 已 成 为 数据 仓库 的 特点 。 

在 数据 仓库 的 开发 过 程 中 需要 适应 数据 仓库 不 断 增长 的 现实 。 


2. 数据 仓库 维护 


数据 仓库 维护 包括 适应 数据 仓库 增长 的 维护 和 正常 系统 维护 两 类 。 

适应 数据 仓库 增长 的 维护 包括 : 数据 增长 的 处 理 、 存 储 空间 的 处 理 `ETL 处 理 、 数 据 模 
型 的 修订 、 增 强 决策 支持 的 处 理 等 。 其 中 ,数据 增长 的 处 理工 作 有 : 去 掉 没 有 用 的 历史 数 
据 ;根据 用 户 使 用 的 情况 ,取消 某 些 细节 数据 和 无 用 的 汇总 数据 ,增加 些 实用 的 汇总 数据 。 

存储 空间 的 处 理工 作 主 要 是 对 增长 的 存储 设备 要 有 计划 。 存 储 成 本 是 软件 成 本 的 4 一 
5 售 。 
正常 的 系统 维护 工作 包括 数据 仓库 的 备份 和 恢复 。 由 于 数据 仓库 的 数据 是 经 过 了 复杂 
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的 清洗 和 转换 过 程 得 到 的 , 它 代表 企业 的 丰富 历史 ,能 适应 用 户 信 息 查 询 和 决策 支持 。 备 份 
数据 内 容 是 非常 必要 的 。 备 份 数据 也 为 系统 恢复 提供 基础 ,一 旦 系统 出 现 灾难 ,利用 备份 数 
据 可 以 很 快 地 将 数据 仓库 恢复 到 正常 状态 。 


3. 数据 仓库 评估 


数据 仓库 评估 包括 3 个 方面 : 系统 性 能 评定 ;投资 回报 分 析 ; 数 据 质量 评估 。 

(1) 系统 性 能 评定 

系统 性 能 评定 包括 : 

。 硬件 平台 是 否 能 够 支持 大 数据 量 的 工作 和 多 类 用 户 .多 种 工具 的 大 量 需 求 ? 

。 软件 平台 是 否 适用 一 个 高 效 的 且 优 化 的 方式 来 组 织 和 管理 数据 ? 

。 是 否 适应 系统 (数据 和 处 理 ) 的 扩展 ? 

(2) 投资 回报 分 析 

投资 回报 分 析 包 括 定量 分 析 和 定性 分 析 。 

。 定量 分 析 是 计算 投资 回报 率 (ROD , 即 收益 与 成 本 的 比率 。 按 IDC( 加 拿 大 ) 公 司 提 

供 的 数据 表明 : 欧美 62 家 企业 建立 的 数据 仓库 3 年 投资 回报 率 平均 值 为 401%, 收 

回 投资 的 平均 时 间 为 2. 3 年 。 最 终 用 户 获 得 的 效益 大 约 占 总 效益 的 50% ,信息 收集 
人 员 和 维护 人 员 获 得 的 效益 共 占 总 效益 的 50% 。 

IDC 的 调查 结果 表明 ,对 于 环境 比较 复杂 的 企业 ,数据 仓库 是 一 种 有 价值 的 投资 。 

。 定性 分 析 是 分 析 如 下 几 个 方面 的 效果 : 企业 与 客户 之 间 的 关系 状态 如 何 ? 给 客户 

获得 的 好 处 如 何 ? 建立 企业 的 合作 关系 如 何 ? 对 转瞬 即 逝 的 机 会 快速 反应 能 力 如 
何 ? 管理 宏观 和 微观 数据 的 能 力 如 何 ? 改善 管理 能 力 如 何 ? 

(3) 数据 质量 评估 

数据 质量 是 数据 仓库 成 功 的 关键 ,只 有 高 质量 的 数据 才能 为 决策 支持 提供 准确 的 依据 。 
保证 决策 的 正确 性 。 

数据 质量 的 评估 标准 有 : 

。 数据 是 准确 的 。 数 据 必须 保证 它 的 准确 性 ,如 姓名 、 地 址 对 营销 部 门 必须 正确 。 
数据 符合 它 的 类 型 要 求 和 取 值 要 求 。 定 义 了 数据 字段 类 型 (如 字符 型 实数 型 等 ) 
后 ,对 该 字段 的 所 有 数据 必须 满足 类 型 要 求 ,其 取 值 必须 在 指定 的 范围 内 。 如 “性 
别 ”字段 是 “字符 型 ”, 其 取 值 范围 只 有 “ 男 ” 或 “ 女 ”。 
数据 具有 完整 性 和 一 臻 性。 数据 的 完整 性 体现 在 对 不 同 的 需求 ,都 应 该 获得 所 需要 
的 数值 ,不 应 该 有 缺失 值 。 数 据 的 一 致 性 体现 在 相同 记录 下 同一 字段 的 数据 在 多 个 
不 同 的 源 系 统 中 有 相同 的 类 型 和 取 值 。 如 产品 ABC 的 代码 是 1234, 在 不 同 的 源 系 
统 中 都 应 该 是 一 致 的 。 

。 数据 是 清晰 的 且 符合 商业 规则 。 数 据 正 确 的 命名 可 以 帮助 用 户 更 好 地 理解 数据 元 
素 , 如 果 用 户 不 了 解 它 的 含义 就 不 可 能 很 好 地 使 用 它 。 数 据 必须 符合 商业 规则 ,如 
销售 价格 不 能 低 于 底价 ,贷款 余额 不 能 是 负 值 。 

。 数据 保持 时 效 性 并 不 能 出 现 异 常 。 对 不 同时 间 要 求 的 数据 (如 按照 月 ) 能 按时 提供 ， 
保持 时 效 性 。 数 据 不 能 出 现 异常 ,如 客户 的 通信 地 址 不 能 是 传真 号 码 或 者 电话 
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号 码 。 
4.2.2 数据 质量 与 数据 清洗 


数据 质量 是 数据 仓库 的 成 功 关键 。 完 整 而 准确 的 数据 能 够 大 大 提高 客户 服务 的 质量 ， 
给 产品 提高 交叉 销售 的 机 会 ( 即 购买 一 个 产品 时 ,可 能 购买 其 他 产品 ) ,高 质量 的 数据 能 减少 
成 本 和 风险 ,提高 生产 率 , 完 成 实时 的 信息 分 析 , 最 本 质 的 是 保证 战略 决策 的 制定 。 

在 数据 仓库 的 开发 中 ,数据 的 抽取 和 转换 过 程 中 会 发 现 数据 质量 问题 ,要 及 时 找 出 数据 
污染 的 原因 ,进行 有 效 的 数据 清洗 ,确保 数据 的 高 质量 。 


1. 数据 质量 问题 


数据 质量 问题 表现 为 : 

(1) 字段 中 的 虚假 值 。 在 输入 数据 时 ,有 时 会 将 字母 P.O 等 , 误 改 成 数字 9 和 0。 

(2) 数据 值 缺 失 。 这 在 客户 数据 中 经 常 出 现 。 

(3) 不 一 致 的 值 。 不 同 的 源 系 统 代码 表示 不 一 致 。 如 有 的 代码 表示 为 A(Auto)、H 
(Home) F(Flood) ;有 的 表示 为 1.2.3; 有 的 表示 为 AU、.HO FL 等 。 

(4) 违反 常规 的 不 正确 值 。 如 一 年 工作 的 天 数 ,加 上 假日 .病假 天 数 ,超过 365 天 。 

(5) 一 个 字段 有 多 种 用 途 。 一 个 字段 同一 数据 在 不 同 部 门 可 能 有 不 同 的 含义 。 

(6) 标 法 不 惟一 。 例 如 销售 系统 与 库存 系统 的 产品 代码 不 一 致 。 


2. 数据 污染 产生 的 原因 


数据 被 污染 所 产生 的 原因 有 : 

(1) 系统 转换 。 由 于 系统 升级 而 发 生变 化 时 ,在 文件 转换 过 程 中 ,会 对 数据 产生 污染 。 
系统 转换 和 迁移 是 数据 污染 的 重要 原因 。 查 找 数据 污染 需要 了 解 每 一 次 源 系 统 所 经 过 的 转 
换 过 程 。 

(2) 数据 老化 。 在 源 系统 中 有 很 多 旧 系 统 时 , 旧 的 值 随 着 时 间 的 变化 会 失去 它 的 含义 
和 意义 ,逐渐 形成 数据 污染 。 

(3) 复杂 的 系统 集成 。 数 据 不 一 致 会 产生 数据 污染 。 数 据 仓库 的 源 系统 种 类 越 多 ,出 
现 污染 数据 的 可 能 性 越 大 。 

(4) 数据 输入 的 不 完整 信息 。 在 初始 数据 输入 时 ,没有 完全 输入 所 有 的 字段 ,将 导致 数 
据 值 缺失 ;对 必须 输入 的 字段 ,随便 输入 一 些 通用 数据 ,都 将 产生 数据 污染 。 

(5) 输入 错误 。 错 误 的 数据 输入 也 是 数据 污染 的 一 个 主要 来 源 。 

(6) 欺诈 。 有 些 人 为 了 欺诈 ,千方百计 往 系统 中 输入 错误 的 数据 ,特别 是 涉及 金额 或 产 
品 数量 的 字段 。 

(7) 缺乏 相关 政策 。 当 公司 对 数据 质量 没有 明确 的 相关 政策 , 它 的 数据 质量 就 不 可 能 
得 到 保证 。 


3. 数据 清洗 


清洗 数据 仓库 中 所 有 数据 的 成 本 是 相当 高 的 。 在 现实 世界 中 ,绝对 的 高 质量 数据 是 不 
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现实 的 ,不 能 期 望 100% 的 数据 质量 。 清 洗 数据 采用 “面向 目标 ”的 原则 , 先 确 定 要 使 用 哪些 
数据 ,然后 确定 目标 是 什么 。 清 洗 数 据 要 明确 如 下 问题 : 

(1) 需要 清洗 哪些 数据 

清洗 哪些 数据 是 根据 数据 仓库 要 回答 用 户 的 问题 类 型 , 找 出 回答 问题 所 需要 的 数据 。 
权衡 每 部 分 数据 的 价值 ,并 估计 对 数据 清洗 、 对 用 户 分 析 会 造成 什么 影响 。 通 常 只 清洗 那些 
重要 的 数据 ,而 忽略 那些 不 重要 的 数据 。 

(2) 在 什么 地 方 清洗 

数据 的 错误 来 自 源 系统 ,在 数据 进入 数据 仓库 之 后 再 进行 清洗 是 不 现实 的 ,这 样 会 破坏 
已 转移 和 转载 其 他 数据 。 通 常 ,数据 在 被 存储 进 数据 仓库 之 前 就 应 该 进行 清洗 。 数 据 抽 取 
过 程 中 被 抽取 的 数据 一 般 进 入 缓存 区 域 ,数据 装载 过 程 从 缓存 区 域 进 入 数据 仓库 中 。 

在 缓存 区 域 中 清洗 数据 相对 容易 。 

(3) 怎么 清洗 

清洗 源 系 统 中 的 数据 ,必须 找到 适合 源 系 统 的 字段 和 格式 的 清洗 工具 。 现 在 已 有 很 多 
完成 各 种 数据 清洗 功能 的 工具 软件 可 以 采用 。 对 于 特殊 的 数据 污染 则 要 专门 编制 程序 来 完 
成 数据 清洗 。 

对 于 要 净化 的 数据 元 素 分 为 3 个 优先 级 类 型 : 高 优先 级 .中 优先 级 和 低 优 先 级 。 对 高 
优先 级 的 数据 要 达到 100 儿 的 数据 质量 等 级 。 中 优先 级 的 数据 越 准确 越 好 ,对 这 类 数据 ,要 
在 数据 修正 的 成 本 和 坏 数据 可 能 造成 的 影响 之 间 进 行 平 衡 。 低 优先 级 的 数据 可 以 在 有 时 间 
和 需要 的 时 候 进行 清洗 。 

(4) 建立 一 个 数据 质量 框架 

数据 质量 框架 包括 : 建立 数据 质量 领导 小 组 ;建立 数据 质量 政策 和 标准 ;定义 质量 指标 
参数 和 基准 ;识别 受 坏 数 据 影响 最 大 的 商业 功能 ;选择 那些 有 较 大 影响 力 的 数据 元 素 ,确定 
优先 级 ;对 有 较 大 影响 力 的 数据 元 素 制定 清洗 计划 ,并 执行 数据 清洗 ;再 为 较 小 影响 的 数据 
元 素 制定 清洗 计划 ,并 执行 数据 清洗 。 这 个 框架 是 确保 数据 质量 的 基础 。 


4.2.3 数据 粒度 与 维度 建 模 


数据 粒度 是 指数 据 仓库 的 数据 中 保存 数据 的 细 化 程度 或 综合 程度 的 级 别 。 细 化 程度 越 
细 , 粒 度 级 别 就 越 小 ;相反 , 细 化 程度 越 粗 ,粒度 级 别 就 越 高 。 

数据 粒度 深 深 影响 存放 在 数据 仓库 中 的 数据 量 的 大 小 ,同时 影响 数据 仓库 所 能 回答 的 
查询 类 型 。 

数据 仓库 的 设计 需要 在 数据 量 大 小 与 查询 的 详细 程度 之 间作 出 权衡 。 

例如 ,在 数据 仓库 中 存储 一 个 顾客 ( 张 三 ) 一 个 月 的 每 个 电话 的 细节 ,能 够 查询 出 “ 张 三 
在 某 日 给 女友 是 否 打 过 电话 ”。 其 存储 量 是 每 个 月 200 个 记录 40 000 个 字 节 。 若 存储 一 个 
顾客 一 个 月 的 电话 综合 ,能 够 查询 “ 张 三 这 个 月 打 了 多 少 个 长 途 电话 ”。 其 存储 量 是 每 个 月 
一 个 记录 200 个 字 节 。 


1. 大 维度 与 雪花 模型 


大 维度 表现 在 两 方面 : 大 维度 表 的 记录 数 很 大 ;大 维度 表 的 属性 很 多 。 在 数据 仓库 中 ， 
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客户 维度 和 产品 维度 是 典型 的 大 维度 。 一 个 全 国 连锁 店 的 客户 维度 可 能 包括 上 亿 条 记录 。 
大 型 零售 店 的 产品 维度 也 相当 巨大 。 

一 般 大 型 客户 维度 有 2000 万 条 记录 ,150 个 维度 属性 ,可 能 有 多 种 层次 结构 。 一 般 大 
型 产品 维度 有 100 000 种 产品 ,100 多 个 属性 ,也 有 多 种 层次 结构 。 大 维度 数据 仓库 运行 时 
会 很 慢 , 效 率 很 低 。 大 维度 表 采 用 雪花 模型 的 数据 组 织 , 是 一 种 有 效 的 方法 。 

对 产品 维度 而 言 , 产 品 分 属于 产品 品牌 ,品牌 又 分 属于 产品 分 类 。 对 客户 维度 而 言 , 客 
户 分 属于 地 区 ,地 区 分 属于 国家 。 以 上 结构 采用 雪花 模型 的 数据 组 织 , 将 减少 各 维 表 的 记录 
数 ,使 查询 过 程 中 搜索 记录 数目 减少 。 对 于 销售 的 雪花 模型 ,如 图 4. 11 所 示 。 


品牌 产品 销售 事实 
品牌 键 | 产品 键 “| | 产品 键 
品牌 名 上 | | 产品 名 | | 时 间 键 客户 地 区 ”国家 
分 类 键 | 品名 锦 | | 客车 [客户 刍 | 地 区 鱼 | /国家 链 
销售 由 | | 客户 名 | /| 地 区 名 | /| 国家 名 
信 总 地 区 键 |/ | 国家 键 
分 类 利润 
分 类 键 | ”包装 
分 类 名 包装 键 时 间 
包装 类 别 | 时 间 键 
一 一 一 | 和 
月 
季 
年 


图 4.11 销售 事实 的 雪花 模型 


2. 综合 事实 表 


在 基础 事实 表 中 ,各 条 记录 反映 维度 多 层 结构 中 最 低层 次 的 数据 。 例 如 ,销售 事实 是 某 
日 、 某 个 商店 和 某 个 产品 相关 的 销售 数量 和 销售 总 价 。 

在 现实 中 ,大 多 数 查询 不 是 基于 基础 事实 表 上 操作 的 ,而 是 基于 综合 数据 的 查询 。 这 样 
建立 综合 事实 表 是 提高 综合 数据 查询 的 非常 有 效 的 方法 , 且 大 大 提高 数据 仓库 的 性 能 。 

在 多 维 表 中 ,很 多 维 都 具有 层次 结构 ,对 不 同 维 的 层次 的 提升 ,可 建立 多 种 综合 事实 表 。 
生生 生生 二 用 全 人 于 六 关 全 二 出 洒 风 > 同时 维度 也 将 衍生 出 高 层次 的 维 表 , 它 与 综合 事 
实 


例如 ， 对 产品 维 从 每 一 个 具体 的 产品 上 升 为 分 类 产品 ,建立 分 类 产品 维 表 。 按 照 分 类 产 
品 键 来 综合 基础 销售 事实 表 的 事实 ,形成 (衍生 ) 综 合 销售 事实 表 , 如 图 4. 12 所 示 。 

从 图 4. 12 可 见 , 对 基础 事实 表 查 询 , 利 用 产品 维 表 ;对 综合 事实 表 查 询 , 利 用 产品 分 类 

以 上 是 对 一 个 维度 进行 提升 产生 的 综合 事实 表 和 衍生 维 表 。 若 对 2 个 或 3 个 维度 同时 
进行 提升 ,所 产生 的 综合 事实 表 也 需要 衍生 出 相应 2 个 或 3 个 高 层次 的 维 表 。 综 合 事实 表 
将 大 大 提高 综合 数据 的 查询 效果 。 


各 


销售 事实 表 


品 (基础 表 ) 商店 
产品 键 产品 键 商店 键 
产品 名 时 间 键 商店 名 
分 类 商店 键 地 域 
部 门 销售 量 地 区 

销售 总 价 
时 间 综合 事实 表 产品 分 类 
时 间 键 分 类 键 分 类 键 
日 期 时 间 键 分 类 名 
月 商店 键 部 门 
季 销售 量 
年 销售 总 价 


图 4.12 综合 事实 表 和 衍生 维度 (产品 分 类 ) 表 


4.3 数据 仓库 技术 与 开发 的 困难 


4.3.1 数据 仓库 技术 


数据 仓库 环境 中 的 数据 处 理 可 以 概括 为 装 和 与 访问 两 个 过 程 。 数 据 从 大 量 数据 库 中 的 
集成 ,转换 和 装载 到 数据 仓库 中 去 。 数 据 一 旦 被 装 入 ,通常 是 不 更 新 的 。 数 据 到 数据 仓库 后 
将 被 访问 和 分 析 。 


1. 管理 大 量 数据 


对 于 数据 仓库 最 重要 的 技术 就 是 能 够 管理 大 量 的 数据 。 传 统 数据 库 环 境 和 数据 仓库 环 
境 的 一 个 重要 的 区 别 在 于 ,数据 仓库 中 有 更 多 的 数据 量 , 比 一 般 的 数据 库 环境 中 要 多 得 多 。 
数据 仓库 中 的 数据 量 是 10GB 或 100GB 级 的 ,而 一 个 通用 的 DBMS 通常 管理 的 数据 是 MB 
级 的 。 数 据 仓 库 要 管理 大 量 的 数据 ,是 因为 它们 包括 : 

(1) 粒状 的 ,原子 的 细节 ; 

(2) 历史 数据 

(3) 细节 和 汇总 数据 ; 

(4) 元 数据 。 

有 好 多 种 管理 大 量 数据 的 方法 : 寻 址 索引、 数据 的 外 延 ` 有 效 的 溢出 管理 等 。 管 理 大 
量 的 数据 有 两 方面 : 能 够 管理 大 量 数据 的 能 力 和 能 够 高 效 管 理 数 据 的 能 力 。 任 何 声称 支持 
数据 仓库 的 技术 一 定 都 要 满足 能 力 与 效率 的 要 求 。 数 据 仓库 开发 者 建造 数据 仓库 时 ,要 能 
够 满足 处 理 大 量 数据 的 需求 。 


2. 数据 的 高 效 装 入 和 数据 压缩 


(1) 装 入 数据 
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数据 仓库 的 一 个 重要 技术 就 是 能 够 高 效 地 装 人 数据。 

有 好 多 种 装 和 人 数据 的 方法 : 通过 一 个 语言 接口 一 次 一 条 记录 或 者 一 起 使 用 一 个 程序 一 
次 全 都 装 入 。 另 外 ,在 装 和 人 数据 的 同时 ,索引 也 要 高 效 地 装 人 。 有 时 ,为 了 平衡 工作 负载 , 数 
据 索 引 的 装 入 可 以 推迟 。 

如 果 数 据 仓库 中 数据 的 装 人 有 不 可 克服 的 困难 ,那么 这 个 数据 仓库 就 没有 用 处 了 。 

(2) 数据 压缩 

数据 仓库 的 成 功 之 处 就 在 于 能 够 管理 大 量 的 数据 。 达 到 这 一 目的 的 中 心 环节 是 数据 的 
压缩 。 当 数据 能 够 被 压缩 时 , 便 能 存储 在 很 小 的 空间 中 。 这 与 数据 仓库 的 环境 有 关 , 因 为 数 
据 在 插入 到 数据 仓库 中 后 ,是 很 少 被 更 新 的 。 数 据 仓 库 中 数据 的 稳定 性 减少 了 空间 管理 问 
题 , 这 些 问 题 是 在 更 新 紧密 压缩 的 数据 时 发 生 的 。 

压缩 的 另 一 个 好 处 是 程序 员 可 以 完全 脱离 给 定 的 输入 输出 操作 。 当 然 , 对 数据 的 访问 
就 会 有 相应 的 解压 缩 的 问题 。 虽 然 解压 缩 需要 一 定 的 开销 ,但 这 个 开销 不 是 1/O 资源 的 开 
销 , 而 是 CPU 的 开销 。 通 常 ,在 数据 仓库 环境 中 1/O 资源 比 CPU 资源 少 得 多 ,因此 数据 的 
解压 缩 并 不 是 一 个 主要 的 问题 。 


3. 存储 介质 的 管理 


在 处 理 大 量 数据 时 ,为 了 满足 高 效率 和 合理 的 费用 ,应 用 在 数据 仓库 中 的 基本 技术 应 该 
能 够 解决 多 种 存储 介质 的 问题 。 仅 仅 在 直接 存 取 存 储 设备 (如 磁盘 ) 上 管理 一 个 成 熟 的 数据 
仓库 是 不 够 的 。 考 虑 到 访问 速度 和 存储 费用 ,对 数据 的 存储 要 分 层次 ,层次 的 区 分 如 表 4. 6 
所 示 。 


表 4.6 对 数据 的 存储 层次 


存储 介质 访问 速度 存储 费用 
主 存 非常 快 非常 贵 
扩展 内 存 非常 快 贵 
高 速 缓存 非常 快 贵 
磁盘 快 适中 
光盘 不 慢 不 贵 
微缩 胶片 慢 便宜 


由 于 数据 仓库 中 的 大 量 数量 和 被 访问 到 的 可 能 性 这 两 方面 的 因素 存在 ,一 个 满载 的 数 
据 仓 库 应 该 放 在 多 种 存储 层次 上 。 处 理 数据 仓库 技术 要 能 管理 多 种 存储 介质 上 的 数据 。 


4. 元 数据 管理 


数据 仓库 中 的 元 数据 比 在 传统 的 数据 库 中 更 重要 。 为 了 更 加 有 效 ,数据 仓 库 的 用 户 应 
该 能 够 对 准确 和 实时 的 元 数据 进行 访问 。 没 有 一 个 好 的 元 数据 来 源 进 行 运作 的 话 ,DSS 分 
析 员 的 工作 就 非常 困难 。 典 型 的 元 数据 包括 : 
(1) 数据 仓库 表 的 结构 ; 
(2) 数据 仓库 表 的 属性 ; 
(3) 数据 仓库 的 源 数据 ; 
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(4) 源 数 据 到 数据 仓库 的 映射 ; 
(5) 数据 模型 的 规格 说 明 ; 


(6) 抽取 日 志 ; 
(7) 访问 数据 的 公用 例 行 程序 。 
5. 数据 仓库 语言 


数据 仓库 需要 有 非常 丰富 的 数据 仓库 语言 。 这 种 语言 是 用 来 有 效 管 理 数据 仓库 中 数据 
和 人 快速 ,高效 访问 数据 仓库 中 的 数据 。 

典型 的 数据 仓库 语言 : 

(1) 能 够 一 次 访问 一 组 数据 ; 

(2) 能 够 一 次 访问 一 条 记录 ; 

(3) 特别 要 保证 ,为 了 满足 某 个 访问 要 求 能 够 支持 一 个 或 多 个 索引 ， 

(4) 有 SQL 接口 ; 

(5) 能 够 插入 、 删 除 、 更 新 数据 。 


6. 高 效 索引 


数据 仓库 的 灵魂 在 于 灵活 性 和 对 数据 的 不 可 预测 的 访问 。 这 一 点 也 是 要 求 能 够 对 数据 
进行 快速 和 方便 的 访问 。 数 据 仓 库 中 的 数据 如 果 不 能 方便 和 有 效 地 检索 ,那么 建立 数据 仓 
库 这 项 工作 就 不 是 成 功 的 。 当 然 , 设 计 者 可 以 利用 许多 方法 来 使 数据 尽 可 能 地 灵活 ,例如 利 
用 双重 粒度 级 和 数据 分 割 。 但 这 些 技术 一 定 要 支持 方便 的 索引 ,建立 和 应 用 索引 的 费用 不 
能 太 高 。 

数据 仓库 技术 不 仅 必须 能 够 方便 地 支持 新 索引 的 创建 和 装 和 人 ,而且 要 能 够 高 效 地 访问 
这 些 索引 。 有 多 种 方法 能 够 高 效 地 访问 索引 : 

(1) 位 索引 ; 

(2) 多 级 索引 ; 

(3) 将 部 分 或 全 部 索引 装 入 内 存 ; 

(4) 当 被 索引 的 数据 的 次 序 允 许 压 缩 时 ,对 索引 项 进行 压缩 ; 

(5) 创建 选择 索引 或 范围 索引 。 


7. 数据 仓库 的 特殊 管理 


(1) 复合 键 码 

数据 仓库 环境 中 一 种 重要 的 技术 是 能 够 支持 复合 键 码 。 这 种 键 码 在 数据 仓库 环境 中 随 
处 可 见 , 主 要 是 因为 数据 仓库 中 数据 的 随时 间 变 化 的 特性 。 

(2) 变 长 数据 

数据 仓库 环境 的 另 一 个 重要 的 技术 是 有 效 管 理 变 长 数据 的 能 力 。 

变 长 数据 如 果 被 经 常 更 新 和 改变 ,就 会 产生 性 能 上 的 严重 问题 。 但 当 变 长 数据 很 稳定 ， 
如 在 数据 仓库 中 时 ,就 没有 固有 的 性 能 问题 。 男 一 方面 ,由 于 数据 仓库 中 数据 的 多 样 性 ,对 
数据 的 变 长 结构 的 支持 是 强制 性 的 。 
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(3) 快速 恢复 

数据 仓库 环境 的 一 个 简单 而 又 重要 的 技术 特性 是 ,能 够 从 非 直 接 存 取 存 储 设备 快速 地 
恢复 数据 仓库 表 。 当 可 以 从 二 级 存储 设备 上 恢复 时 ,就 可 以 节约 大 量 开支 。 如 果 没 有 能 从 
二 级 存储 设备 上 快速 恢复 的 能 力 , 通 常 的 做 法 是 将 直接 存储 设备 的 数目 增加 一 倍 , 然 后 将 增 
加 出 的 数目 作为 恢复 /复原 的 存储 区 。 


8. 多 维 DBMS 和 数据 仓库 


在 数据 仓库 中 经 常 讨论 的 技术 是 多 维 数据 库 管理 系统 (多 维 DBMS) 。 多 维 数据 库 管理 
系统 提供 了 一 种 信息 系统 结构 ,使 得 对 数据 的 访问 非常 灵活 ,可 以 用 多 种 方法 对 数据 进行 切 
片 .分割 ,动态 地 考察 汇总 数据 和 细节 数据 的 关系 。 多 维 DBMS 不 仅 提供 了 灵活 性 ,还 可 以 
对 终端 用 户 进行 管理 ,这 些 非常 适合 DSS 环境 。 

数据 仓库 中 的 细节 数据 为 多 维 DBMS 提供 了 数据 源 ,多 维 DBMS 需要 定期 地 刷新 。 为 
此 ,数据 要 定期 从 数据 仓库 中 导入 到 多 维 DBMS 中 去 。 数 据 仓 库 和 多 维 DBMS 的 区 别 
如 下 : 

(1) 数据 仓库 有 大 量 的 数据 ;多 维 DBMS 中 的 数据 至 少 要 少 一 个 数量 级 。 

(2) 数据 仓库 只 适合 于 少量 的 灵活 访问 ;而 多 维 DBMS 适合 大 量 的 非 预知 的 数据 的 访 
问 和 分 析 。 

(3) 数据 仓库 内 存储 了 很 长 时 间 范 围 内 的 数据 ,如 5 年 到 10 年 ;多 维 DBMS 中 存储 着 
比较 短 时 间 范 围 内 的 数据 。 

(4) 数据 仓库 允许 分 析 人 员 以 受 限 的 形式 访问 数据 ,而 多 维 DBMS 允许 自由 的 访问 。 

多 维 DBMS 和 数据 仓库 有 着 互补 的 关系 。 数 据 仓库 为 非常 细节 的 数据 提供 了 基础 ,而 
这 在 多 维 DBMS 中 通常 是 不 能 看 到 的 。 数 据 仓库 能 容纳 非常 详细 的 数据 ,这 些 数据 在 导入 
多 维 DBMS 时 被 轻 度 综合 了 ,导入 多 维 DBMS 后 ,数据 还 会 被 进一步 地 汇总 。 在 这 种 模式 
下 ,多 维 DBMS 可 以 包含 除了 非常 细节 以 外 的 所 有 数据 。 使 用 多 维 DBMS 的 分 析 者 可 以 一 
种 灵活 和 高 效 的 方式 对 多 维 DBMS 中 所 有 不 同 层次 的 数据 进行 钴 取 。 如 果 需 要 的 话 , 分 析 
者 还 可 以 向 下 钻 取 到 数据 仓库 。 通 过 这 种 方式 将 数据 仓库 和 多 维 DBMS 结合 。DSS 分 析 
者 可 以 得 到 这 两 者 的 好 处 。DSS 分 析 者 大 部 分 时 间 里 可 以 在 多 维 DBMS 中 享受 其 操作 高 
效 的 优点 ,同时 如 果 需 要 的 话 , 还 可 以 向 下 钻 取 最 低层 次 的 细节 数据 。 

数据 仓库 和 多 维 DBMS 的 另 一 个 互补 的 方面 是 汇总 的 信息 在 多 维 DBMS 中 计算 和 收 
集 后 被 存储 在 数据 仓库 中 。 通 过 以 这 种 方式 将 数据 进行 聚合 ,汇总 数据 在 数据 仓库 中 比 在 
多 维 DBMS 能 够 存储 更 长 的 时 间 。 数 据 仓 库 和 多 维 DBMS 还 有 一 个 方面 是 互补 的 。 多 维 
DBMS 存放 中 等 时 间 长 度 的 数据 , 依 应 用 的 不 同 从 12 个 月 到 15 个 月 。 而 数据 仓库 存放 数 
据 的 时 间 跨 度 要 大 得 多 ,从 5 年 到 10 年 。 考 虑 到 这 一 点 ,数据 仓库 就 成 为 多 维 DBMS 分 析 
者 进行 研究 的 源泉 。 多 维 DBMS 分 析 者 乐于 知道 ,如 果 需 要 的 话 , 有 大 量 的 数据 是 可 用 的 ， 
但 在 不 需要 时 确 用 不 着 在 他 们 的 环境 中 花费 存储 所 有 这 些 数据 的 代价 。 

多 维 DBMS 有 不 同 的 特色 。 一 些 多 维 DBMS 建立 在 关系 模型 上 ,而 一 些 多 维 DBMS 
建立 在 能 优化 “切片 和 切 块 ”数据 的 基础 上 ,在 这 里 数据 可 以 被 认为 存储 在 多 维 立 方 体内 ,后 
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者 的 技术 基础 可 以 称 为 “立方 体 基础 ”。 
两 种 技术 基础 都 支持 多 维 DBMS 数据 集 市 ,但 这 两 种 技术 基础 之 间 存 在 一 些 差异 。 
多 维 DBMS(OLAP) 是 一 种 技术 ,而 数据 仓库 是 一 种 体系 结构 的 基础 。 这 两 者 之 间 存 
在 着 互补 的 和 共生 的 关系 。 最 一 般 的 情况 下 ,数据 仓库 作为 多 维 DBMS 的 基础 一 一 从 中 选 
出 细节 数据 的 一 个 子 集 传 到 多 维 DBMS 中 ,在 那里 ,数据 要 么 被 汇总 ,要 么 被 聚集 。 


4.3.2 数据 仓库 开发 的 困难 


数据 仓库 由 于 数据 量 大 (具有 GB 级 到 TB 级 的 数据 ) ,数据 包括 近期 综合、 历史 等 多 
个 层次 ,还 包括 元 数据 ,致使 数据 的 存储 和 管理 复杂 。 数 据 仓库 的 应 用 包括 快速 查询 、 多 维 
分 析 及 数据 挖掘 等 多 种 类 型 。 这 样 ,数据 仓库 需要 一 个 具有 海量 存储 的 硬件 平台 和 一 个 能 
进行 并 行 处 理 的 大 型 数据 库 系统 。 大 型 数据 库 厂商 NCR 公司 提供 的 数据 仓库 硬件 平台 是 
具有 海量 并 行 处 理 的 WordMark 系列 服务 器 ,数据 仓库 软件 是 Teradata 数据 库 系 统 , 能 处 
理 GB 级 到 TB 级 的 数据 ,具有 很 强 的 并 行 处 理 能 力 和 扩展 能 力 。Oracle、IBM、SAS、Mi- 
crosoft 等 公司 也 都 推出 了 各 自 的 数据 仓库 商品 ,它们 为 开发 数据 仓库 提供 了 强 有 力 的 工 
具 。 这 些 工 具 极 大 地 推动 了 数据 仓库 的 发 展 。 但 是 ,在 国外 仍 存在 开发 数据 仓库 的 失败 。 
这 些 失败 的 案例 主要 反映 在 错误 的 认识 观念 上 ,它们 构成 了 开发 数据 仓库 的 障碍 。 

国外 总 结 开发 数据 仓库 的 典型 错误 有 : 


1. 没有 理解 数据 的 价值 


没有 认识 到 数据 的 价值 ,就 不 会 有 效 地 访问 数据 和 挖掘 数据 中 的 信息 和 知识 。 数 据 必 
须 共享 ,才能 充分 发 挥 它 的 价值 ,那些 垄断 数据 的 做 法 只 可 能 埋没 数据 的 作用 ,直接 影响 数 
据 仓 库 的 开发 。 数 据 的 一 致 性 是 数据 共享 的 基础 。 数 据 对 于 不 同 的 人 ,由 于 定义 的 不 一 致 
和 时 间 的 不 一 致 ,就 会 造成 数据 的 不 一 致 ,这 会 造成 对 数据 理解 的 不 一 致 和 报表 的 不 一 致 ， 
从 而 丧失 人 们 对 数据 的 信任 ,更 谈 不 上 辅助 决策 。 


2. 未 能 理解 数据 仓库 概念 


不 了 解数 据 仓库 的 含义 , 它 所 能 解决 的 业务 问题 和 它 的 用 途 , 必 然 导致 数据 仓库 开 
发 的 失败 。 数 据 仓库 数据 不 是 将 大 量 现行 系统 中 的 数据 堆积 而 成 的 。 数 据 仓 库 是 将 现 
行 管理 系统 中 大 量 数据 按 决策 主题 重新 组 织 ,通过 集成 而 形成 的 。 数 据 仓 库 包 含 大 量 的 
随时 间 变 化 的 数据 ,而 不 进行 实时 更 新 。 不 像 现 行 管理 系统 中 数据 进行 实时 更 新 ,只 保 
留 当前 准确 的 数据 。 在 数据 仓库 中 元 数据 很 重要 。 元 数据 能 够 让 用 户 了 解数 据 仓库 中 
有 什么 数据 ,它们 是 如 何 组 织 的 ,对 这 些 数 据 如 何 使 用 。 充 分 理解 数据 仓库 概念 ,才能 充 
分 发 挥 数据 仓库 作用 。 


3. 尚未 清楚 地 了 解 用 户 将 如 何 使 用 数据 仓库 之 前 , 便 贸然 开发 数据 仓库 


一 个 典型 的 错误 观点 是 :“ 只 要 你 建 好 (数据 仓库 ) 了 ,他 们 就 会 用 ”"。 这 种 盲目 自信 的 
建造 数据 仓库 ,用户 未 参加 界定 对 数据 仓库 的 需求 ,必然 导致 数据 仓库 的 失败 。 
数据 仓库 的 建造 必须 有 用 户 代表 参加 。 用 户 代表 懂得 数据 仓库 中 需要 有 哪些 数据 ,以 
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及 如 何 使 用 数据 仓库 来 改善 他 们 的 决策 过 程 。 
4. 对 数据 仓库 规模 的 估计 模糊 


数据 仓库 规模 包括 数据 量 的 多 少 . 用 户 数量 .常规 查询 所 耗费 的 资源 .并 发 查询 数目 、 对 
CPU 的 要 求 等 。 

数据 仓库 中 的 数据 量 多 少 依赖 于 数据 的 主题 (如 顾客 .产品 .风险 管理 . 收 支 等 ) 的 划分 ， 
以 及 用 户 人 数 。 数 据 太 多 时 ,将 会 使 数据 存储 和 加 载 过 程 耗资 巨大 ,还 会 造成 数据 得 不 到 充 
分 利用 或 根本 无 人 使 用 它们 。 


5. 忽视 了 数据 仓库 体系 结构 和 数据 仓库 开发 方法 


数据 仓库 体系 结构 具有 3 个 层次 : 数据 获取 ,数据 存储 和 分 析 工 具 。 这 个 体系 结构 是 
建造 数据 仓库 的 图 纸 。 

数据 仓库 的 生命 周期 (DWLC) 不 同 于 系统 生命 周期 (SDLC)。DWLC 包括 调查 、 分 析 
当前 环境 ,确定 需求 ,确定 体系 结构 ,数据 仓库 设计 、 开 发 .实施 数据 管 理 8 个 阶段 。 

数据 仓库 的 设计 应 该 采用 数据 驱动 方法 , 即 以 数据 为 基础 ( 尽 可 能 地 利用 已 有 的 数据 、 
代码 等 ,而 不 是 从 无 到 有 ) ,进行 从 面向 应 用 到 面向 分 析 需 求 的 转变 , 按 决 策 主 题 存 取 数 据 和 
分 析 数 据 , 并 逐步 提高 决策 效果 。 

数据 仓库 中 的 数据 必须 保证 它 的 质量 ,错误 的 数据 会 引起 错误 的 决策 。 数 据 的 粒度 水 
平 如 何 ” 即 数据 应 该 以 细节 形式 存储 ,还 是 以 概括 形式 存储 ,还 是 两 种 形式 兼 有 ,这 应 该 根 
据 用 户 需求 来 确定 。 

开发 只 有 克服 了 以 上 的 错误 的 认识 观念 ,才能 真正 发 挥 数 据 仓 库 的 作用 。 


习 题 


. 数据 仓库 的 需求 分 析 的 任务 是 什么 ? 

. 数据 仓库 系统 需要 确定 的 问题 有 哪些 ? 

. 实现 决策 支持 所 需要 的 数据 包括 哪些 内 容 ? 

什么 是 概念 模型 ? 它 的 特点 是 什么 ? 

. E-R 图 如 何 描述 概念 模型 ? 

. 比较 数据 库 的 概念 模型 设计 与 数据 仓库 的 概念 模型 设计 。 

. 解释 图 4. 1 概念 模型 。 

. 什么 是 逻辑 模型 ? 数据 仓库 的 逻辑 模型 是 什么 ? 

. 数据 仓库 的 逻辑 模型 与 数据 库 的 逻辑 模型 有 什么 不 同 ? 

10. 举例 说 明 数据 仓库 的 概念 模型 到 逻辑 模型 的 转换 。 

11. 在 数据 仓库 中 为 什么 要 考虑 数据 的 粒度 层次 划分 ? 

12. 数据 仓库 的 记录 系统 包含 什么 内 容 ? 举例 说 明 。 

13. 什么 是 物理 模型 ? 数据 仓库 的 物理 模型 设计 包括 哪些 工作 ? 
14. 为 什么 数据 仓库 物理 模型 设计 中 要 建立 汇总 计划 和 确定 数据 分 区 方案 ? 
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15. 说 明 图 4. 8 中 逻辑 模型 与 物理 模型 的 区 别 。 

16. 数据 仓库 索引 技术 包括 哪些 内 容 ? 

17. 为 什么 B-Tree 索引 不 适合 数据 仓库 ? 

18. 数据 仓库 中 采用 标识 技术 有 什么 好 处 ? 

19. 数据 仓库 的 广义 索引 是 什么 时 候 建 立 的 (是 在 建立 数据 仓库 之 后 ,还 是 在 建立 数据 
仓库 同时 )? 简单 说 明 为 什么 ? 

20. 说 明 数据 仓库 开发 的 4 个 阶段 和 12 个 步骤 。 

21. 简要 说 明 数 据 仓库 开发 的 分 析 与 设计 阶段 的 内 容 。 

22. 简要 说 明 数 据 仓库 开发 的 数据 获取 阶段 的 内 容 。 

23. 简要 说 明 数据 仓库 开发 的 决策 支持 阶段 的 内 容 。 

24. 简要 说 明 数 据 仓库 开发 的 维护 与 评估 阶段 的 内 容 。 

25. 数据 质量 问题 表现 在 哪些 方面 ? 

26. 数据 污染 产生 的 原因 有 哪些 ? 

27. 数据 清洗 要 明确 的 问题 有 哪些 ? 

28. 为 什么 大 维度 表 采 用 雪花 模型 ? 

29. 数据 仓库 技术 包括 哪些 内 容 ? 

30. 国外 开发 数据 仓库 的 错误 有 哪些 ? 
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5.1 数据 仓库 管理 


一 个 数据 仓库 建立 后 ,开始 时 具有 少量 的 用 户 ,不 久 就 会 涌现 大 量 的 用 户 。 数 据 仓 库 中 
的 数据 也 会 随时 间 的 延伸 迅速 地 增长 。 

为 什么 数据 会 增长 ? 主要 原因 有 : 

(1) 数据 仓库 收集 历史 数据 。 数 据 仓库 收集 的 是 5 年 到 10 年 的 数据 。 

(2) 数据 仓库 包含 满足 未 知 需求 的 数据 收集 。 数 据 仓库 必须 同时 满足 已 知 的 需求 和 未 
知 的 需求 。 这 样 ,需要 将 一 些 无 关 和 不 明显 的 数据 合并 到 数据 仓库 中 ,这 种 需求 导致 数据 存 
储量 的 增长 。 

(3) 数据 仓库 既 包 括 了 详细 数据 ,也 包括 了 概括 数据 (汇总 数据 )。 其 中 汇总 数据 占 数 
据 存储 的 比例 很 大 。 

(4) 数据 仓库 还 包含 外 部 数据 (例如 人 口 统计 数据 ,心理 学 数据 等 ) ,这 些 外 部 数据 可 以 
用 来 支持 多 种 可 预测 的 数据 挖掘 任务 。 

建立 和 维护 一 个 高 性 能 的 数据 仓库 环境 ,需要 对 不 断 增 长 的 用 户 和 大 量 的 数据 进行 有 
效 的 管理 , W. H. Inmon 等 人 概括 为 : 用 户 使 用 数据 仓库 的 管理 .数据 管理 .平台 管理 和 服 
务 管理 。 


5.1.1 用 户 使 用 数据 仓库 的 管理 


数据 仓库 的 用 户 有 两 类 : 信息 使 用 者 和 探索 者 。 

信息 使 用 者 是 使 用 数据 仓库 的 大 量 用 户 。 信 息 使 用 者 以 一 种 可 预测 的 、 重 发 性 的 方式 
使 用 数据 仓库 平台 。 他 们 通常 查看 概括 数据 或 聚集 数据 ,查看 相同 的 商业 维度 (如 产品 、 客 
户 、 时 间 ) 和 指标 (如 收入 和 成 本 ) 随 时 间 的 发 展 趋势 。 他 们 天 天 重复 同样 的 活动 ,很 少 使 用 
元 数据 。 他 们 的 工作 相对 来 说 属于 战术 性 的 。 

探索 者 完全 不 同 于 信息 使 用 者 ,他 们 有 一 个 完全 不 可 预测 的 、 非 重复 性 的 数据 使 用 模 
式 。 探 索 者 查看 海量 的 详细 数据 ,而 概括 数据 则 会 妨碍 探索 者 的 数据 分 析 。 他 们 经 常 查看 
历史 数据 ,而 且 查看 的 历史 数据 的 时 间 要 比 信息 使 用 者 长 得 多 。 探 索 者 的 任务 是 寻找 公司 
数据 内 隐 含 的 价值 并 且 根 据 过 去 事件 努力 预测 未 来 决策 的 结果 。 探 索 者 是 典型 的 数据 控 
掘 者 。 


1. 信息 使 用 者 使 用 数据 仓库 的 性 能 优化 


信息 使 用 者 所 提交 的 查询 操作 是 均匀 的 且 有 相当 少量 的 数据 ,他 们 需要 享有 好 的 查询 
响应 时 间 。 数 据 仓库 管理 员 采 取 如 下 方法 来 支持 信息 使 用 者 的 性 能 需求 : 
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(1) 非 规格 化 

数据 建 模 和 规范 化 的 作用 是 产生 一 种 完全 没有 数据 宛 余 的 设计 方法 。 但 是 ,有 时 在 数 
据 仓 库 设计 中 引入 一 些 有 限 的 数据 宛 余 来 提高 数据 访问 效果 。 例 如 ,在 一 些 数据 表 中 加 入 
相同 的 量 , 这 是 用 增加 数据 存储 来 换取 数据 访问 的 优化 (减少 查询 时 间 ) 。 

(2) 创建 数据 阵列 

数据 仓库 管理 员 发 现 用 户 经 常 同时 使 用 相关 类 型 的 数据 时 ,应 创建 数据 阵列 ,将 这 些 数 
据 单元 存储 在 一 起 ,提高 访问 效果 。 

例如 ,对 于 每 年 所 有 月 份 的 数据 ,被 分 别 放置 在 不 同 的 物理 位 置 上 ,而 用 户 经 常 要 同时 
查看 1 月、2 月、3 月 等 月 份 中 的 数据 ,这 样 会 花 掉 很 多 搜索 时 间 到 不 同 的 物理 位 置 上 获取 数 
据 。 一 个 好 的 方法 是 创建 数据 阵列 ,将 相关 联 的 数据 放 在 同一 物理 位 置 ,这 样 可 以 提高 查询 
效果 。 

(3) 预 连接 表格 

节省 机 器 资源 的 最 有 效 的 技巧 之 一 就 是 ,基于 一 个 公用 键 和 共同 使 用 的 数据 将 表格 合 
并 在 一 起 。 

例如 ,如 果 有 两 个 或 者 更 多 的 表格 共享 一 个 公用 键 ,或 者 使 用 相近 的 表格 ,那么 可 以 将 
多 个 表格 合并 到 一 个 物理 表格 中 。 这 样 做 可 以 很 大 程度 地 提高 数据 访问 效率 。 

(4) 预 聚集 数据 

一 种 非常 有 用 的 方法 是 根据 * 滚 动 概括 ?结构 来 组 织 数据 。 

当 数据 被 输入 到 数据 仓库 中 时 ,以 每 小 时 为 基础 存储 数据 。 在 一 天 结束 时 ,以 每 天 为 基 
础 存储 累加 每 小 时 的 数据 。 在 一 周 结束 时 ,以 每 周 为 基础 存储 累加 每 天 的 数据 。 月 末 时 , 则 
以 每 月 为 基础 存储 累加 每 周 的 数据 。 这 样 ,在 累加 数据 后 ,就 删除 被 累加 的 细节 数据 ,通过 
这 种 方式 来 组 织 数据 ,数据 仓库 管理 者 将 极 大 地 减少 存储 数据 所 需要 的 空间 。 并 潜在 地 提 
高 性 能 。 

当然 ,管理 员 也 会 形 失 查看 已 过 时 的 详细 数据 的 能 力 , 越 早 获取 的 数据 ,保留 详细 数据 
越 少 。 但 是 ,许多 种 类 型 的 数据 可 接收 这 种 处 理 , 例 如 ,可 以 非常 有 效 地 积累 销售 .产品 .市 
场 数据 。 

(5) 聚 类 数据 

在 预测 了 用 户 使 用 需求 以 及 使 用 规则 后 ,将 不 同类 型 的 数据 并 置 在 一 起 , 即 基 于 产生 共 
同 信息 将 不 同类 型 的 数据 记录 放置 在 相同 的 物理 位 置 ,为 用 户 查 看 这 些 记 录 ,可 以 在 同一 地 
点 找到 它们 ,提高 了 查询 效率 。 
如 果 使 用 的 是 不 可 预测 和 不 规则 的 ,那么 数据 聚 类 毫 无 意义 。 
(6) 压缩 数据 
压缩 将 节省 资源 ,因为 当 系统 访问 一 个 物理 数据 块 时 ,压缩 将 优化 所 检索 的 数据 量 。 利 
用 这 种 方式 ,压缩 可 以 使 可 读 取 的 数据 量 极 大 ,但 同时 也 需要 用 户 有 一 定 的 经 验 。 

要 注意 的 是 ,在 不 需要 数据 更 新 和 预测 数据 使 用 模式 时 才 可 以 使 用 数据 压缩 , 即 压 缩 不 
改变 任何 数据 ( 即 一 旦 写 入 ,不 允许 重 写 或 者 更 新 )。 

(7) 定期 净化 数据 

数据 仓库 管理 员 通 过 定期 删除 数据 仓库 中 不 需要 的 数据 ,可 以 为 每 个 用 户 提 高 性 能 。 
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没有 其 他 任何 一 种 方法 比 删除 不 需要 的 数据 对 数据 仓库 更 有 利 。 

(8) 合并 查询 

如 果 查 询 定期 发 生 ,那么 可 以 通过 把 这 些 查询 合并 到 同一 个 表格 中 ,从 而 节省 大 量 资 
源 。 查 询 合并 的 作用 就 是 把 扫描 数据 仓库 表格 的 次 数 最 小 化 。 

合并 查询 功能 的 条 件 有 : 

。 当 有 多 个 查询 询问 相同 的 表格 时 ; 

。 所 访问 的 表格 是 一 个 大 表格 ; 

。 用 可 预测 的 、 有 规律 的 方式 来 执行 查询 ; 

。 这 些 查 询 所 执行 的 连接 是 以 一 行 接 一 行 的 方式 ; 

。 这 种 查询 对 执行 时 间 不 太 敏感 。 

如 果 查 询 不 符合 这 些 条 件 , 合 并 查询 功能 没有 任何 优势 。 

应 该 如 何 处 理 合并 查询 功能 ? 数据 仓库 管理 员 收集 所 有 查询 需求 并 合并 到 一 个 大 型 池 
中 。 这 些 查询 的 焦点 是 某 一 个 表格 - 主 表 格 。 只 要 与 二 级 表格 的 连接 经 过 某 一 行 的 连接 点 ， 
这 些 查询 就 可 以 查看 其 他 表格 并 作为 查询 处 理 的 一 部 分 。 

从 主 表格 开始 ,访问 每 一 行 。 如 果 某 一 行 符合 任意 一 个 查询 的 任何 选择 标准 , 则 保留 此 
行 ,以 被 分 析 ,和 否则 继续 执行 下 一 行 。 一 旦 某 行 被 证 明令 人 感 兴趣 , 则 将 所 需要 的 数据 写 人 
到 一 个 工作 文件 中 。 如 果 有 多 个 查询 都 需要 相同 的 数据 (通过 连接 点 ) ,那么 这 个 结果 集 将 
被 多 个 查询 所 标记 。 

还 有 不 少 提高 数据 仓库 性 能 的 方法 ,可 参考 有 关 书 籍 。 


2. 探索 者 使 用 数据 仓库 的 性 能 优化 


探索 者 是 那些 寻找 不 平常 的 且 有 用 的 商业 运作 模型 的 用 户 群 。 探 索 者 的 运作 方式 是 反 
复 无 常 的 .不 可 预测 的 及 随机 的 。 大 部 分 时 间 探 索 者 努力 搜索 ,但 一 无 所 获 。 偶 尔 探索 者 也 
会 发 现 意 外 的 、 无 价 的 信息 “ 金 块 ”。 

探索 者 查看 详细 资料 和 历史 记录 。 在 多 数 情况 下 ,探索 者 考虑 数据 的 不 同类 型 和 数据 
具体 值 之 间 的 关系 。 探 索 者 要 做 的 工作 有 概括 分 析 、 抽 取 、 建 模 和 分 类 。 

(1) 概括 分 析 

概括 分 析 是 探索 者 分 析 过 程 的 第 一 步 。 探 索 者 开始 以 分 析 数 据 仓 库 中 数据 的 外 部 特 
征 , 即 分 析 数 据 的 完整 性 和 准确 性 (数据 质量 )。 在 概括 分 析 活 动 中 ,要 询问 的 典型 问题 
包括 : 

。 家 庭 收 入 如 何 分 配 ? 

。 有 和 多少 账户 每 月 消费 超过 200 元 ?有 多 少 账户 每 月 消费 小 于 或 等 于 200 元 ? 

。 有 多 少 客户 有 两 个 以 上 的 小 孩 并 居住 在 市 区 ? 

(2) 抽取 

通过 概括 分 析 , 所 选 数据 的 轮廓 已 经 基本 显示 出 来 。 数 据 抽取 的 任务 就 是 从 数据 仓库 
中 抽取 指定 的 数据 ,并 组 织 起 来 , 送 入 支持 探索 者 分 析 的 探索 仓库 中 。 这 样 ,不 会 影响 数据 
仓库 的 正常 工作 。 
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(3) 建 模 

探索 者 通过 概括 分 析 来 理解 数据 ,通过 抽取 来 准备 数据 ,通过 建 模 来 分 析 数 据 。 

建 模 是 开发 一 种 用 来 描述 实体 (如 客户 、 商 品 、 渠 道 等 ) 的 关系 模型 的 过 程 。 探 索 者 使 用 
的 模型 有 : 

。 客户 分 段 ; 

。 后 续 产 品 ; 

。 欺诈 检测 ; 

。 渠道 响应 (例如 ,电话 销售 和 直接 邮寄 ); 

。 信用 风险 ; 

。 客户 生存 期 价值 

。 推销 响应 。 

例如 ,利用 建 模 来 确认 有 可 能 拖延 支付 电话 账单 的 客户 : 首先 ,建立 一 个 模型 (利用 统 
计 学 和 行为 科学 ) 来 确认 经 常 拖延 支付 电话 账单 的 客户 特征 。 然 后 ,根据 客户 与 模型 的 密切 
程度 ,对 所 有 的 客户 分 类 。 这 样 ,可 以 提供 谁 将 不 支付 电话 账单 的 某 种 可 能 性 预测 。 最 后 ， 
把 那些 与 此 模型 有 紧密 关系 的 客户 作为 目标 。 

数据 仓库 管理 员 为 保证 探索 者 的 有 效 工作 ,创建 “探索 仓库 ”很 有 必要 。 探 索 仓库 是 企 
业 数 据 仓 库 的 “ 转 出 ”, 用 来 支持 某 些 特定 的 分 析 , 也 不 损害 企业 数据 仓库 中 其 他 常规 用 户 的 
正常 使 用 。 

建立 探索 仓库 所 依赖 的 技术 基础 是 基于 “标识 "的 技术 (参见 4. 1. 5 小节 中 2. 标识 技 
术 ) ,利用 基于 标识 技术 可 使 探索 仓库 非常 经 济 。 基 于 标识 的 技术 允许 把 数据 压缩 到 能 将 数 
据 放置 在 内 存 中 (全 部 或 者 大 部 分 ) 的 程度 。 一 旦 使 用 内 存 存储 ,分 析 和 检索 的 速度 将 大 大 
快 于 使 用 标准 企业 数据 仓库 时 的 速度 。 

探索 仓库 是 临时 性 的 、 短 期 性 的 。 探 索 仓库 的 特征 是 固定 不 变 的 构造 和 重建 。 一 旦 构 
造 好 某 个 探索 仓库 , 则 再 也 不 需要 构造 具有 同样 形式 或 内 容 的 探索 仓库 。 探 索 仓库 能 够 满 
足 数据 仓库 环境 中 非 结 构 化 处 理 的 需要 。 探 索 仓库 适合 于 挖掘 数据 的 探索 者 。 

探索 仓库 一 般 使 用 规范 化 的 数据 结构 ,因为 探索 仓库 适用 于 不 知道 自己 需求 的 使 用 者 。 
而 星 型 模型 的 数据 结构 不 适合 探索 仓库 ,因为 星 型 模型 需要 知道 商业 维度 (如 产品 、 客 户 、 时 
间 ) 和 指标 (如 收入 或 者 是 成 本 ) 等 情况 下 使 用 数据 。 

元 数据 在 探索 仓库 环境 中 也 非常 重要 。 因 为 探索 者 用 多 种 方式 查看 探索 仓库 ,并 且 有 
多 数 方式 以 前 从 没有 被 使 用 过 ,所 以 元 数据 起 到 特别 重要 的 作用 。 在 探索 仓库 中 ,必须 建立 
有 效 的 元 数据 层 。 这 个 元 数据 层 能 够 在 每 次 重新 构造 探索 仓库 时 被 传输 到 探索 仓库 。 


5.1.2 数据 管理 


数据 仓库 中 存放 大 量 的 数据 ,随时 间 的 延伸 又 将 涌 进 大 量 的 数据 。 在 数据 管理 中 要 处 
理 两 大 类 数据 : 休眠 数据 和 脏 数据 。 发 现 这 两 类 数据 需要 用 监视 器 。 
在 数据 仓库 中 ,不 但 要 对 大 量 存储 数据 的 有 效 管 理 ,还 需要 对 元 数据 进行 数据 管理 。 
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5.1.2.1 休眠 数据 


1. 休眠 数据 概念 


休眠 数据 是 那些 存在 于 数据 仓库 中 当前 不 使 用 、 将 来 也 很 少 使 用 或 不 使 用 的 数据 。 
数据 仓库 中 的 数据 随 着 时 间 的 延续 ,数据 被 使 用 的 情况 会 减少 ,休眠 数据 随 之 逐年 增 
加 。 国 外 的 统计 表明 : 第 1 年 内 ,数据 仓库 近期 数据 和 综合 数据 几乎 被 全 部 使 用 。 第 2 年 
内 ,休眠 数据 开始 出 现 , 数 据 仓库 中 的 数据 有 不 少 未 被 使 用 。 第 3 年 内 ,休眠 数据 在 增长 。 
第 4 年 内 ,休眠 数据 迅速 增长 。 
设 数据 仓库 中 的 数据 量 为 D, 一 年 之 中 支持 决策 的 可 能 的 数据 处 理 次 数 为 ,平均 每 次 
处 理 数据 的 字 节 数 为 d, 则 一 年 中 为 支持 决策 的 数据 处 理 的 总 数据 量 为 nd。 
在 各 次 数据 处 理 过 程 中 ,可 能 会 出 现 数据 的 重复 使 用 ,用 系数 a 表示 为 
1.0 ”如 果 每 次 数据 处 理 均 没 有 重复 数据 
a 二 40.5 ”如 果 平 均 两 次 数据 处 理会 遇 到 同一 数据 
0.3 ”如 果 平均 三 次 数据 处 理会 遇 到 同一 数据 
则 休眠 数据 量 D, 表 示 为 
D, = Dand 
休 眼 数据 占 数据 仓库 中 数据 的 比例 称 为 休 眼 数据 率 尺 ,用 公式 表示 为 
R= D,/D 
休 卢 数据 量 D, 和 休眠 数据 率 R 只 是 一 个 估计 数据 ,实际 上 休 眼 数据 比 估 计 值 可 能 更 高 
。 对 于 数据 仓库 中 的 休眠 数据 需要 引起 数据 仓库 管理 员 的 重视 。 


2. 休眠 数据 的 产生 与 查找 


(1) 休眠 数据 的 产生 

产生 休 眼 数据 的 途径 有 : 

Q@ 在 数据 仓库 中 输入 了 过 多 的 近期 基本 数据 。 这 些 过 多 的 数据 包含 在 “事实 表 ” 中 的 
列 数据 和 *“ 维 表 ” 中 的 列 数据 。 这 些 过 多 的 数据 在 实际 使 用 时 并 未 使 用 到 。 

@ 过 多 地 增加 了 不 必要 的 综合 数据 。 数 据 仓 库 中 为 支持 用 户 决策 ,需要 提供 多 种 综合 
数据 ,以 便 使 用 户 能 迅速 查找 到 这 些 综合 数据 。 过 多 的 综合 数据 会 造成 浪费 ,产生 休眠 
数据 。 

@ 历史 数据 用 于 预测 ,由 于 过 高 地 估计 所 需要 的 历史 数据 的 时 间 的 长 度 超过 预测 需求 
的 历史 数据 ,例如 ,输入 了 24 个 月 的 数据 ,后 来 发 现 真 正 需要 的 只 是 3 或 者 4 个 月 的 数据 ， 
其 他 月 份 数 据 均 是 休 眼 数据 ,不 及 时 删除 ,休眠 数据 会 随时 间 迅 速 地 增长 。 

(2) 查找 休眠 数据 

查找 休 眼 数据 的 最 好 方法 是 监视 用 户 查 询 数据 仓库 的 活动 。 

监视 工作 包括 : 

Q@ 监视 用 户 查询 的 SQL 语句 。 

@ 监视 返回 给 用 户 的 查询 结果 数据 集 。 通 过 监视 用 户 的 查询 和 返回 的 查询 结果 ,能 
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够 确定 查询 处 理 中 实际 上 使 用 了 哪些 数据 ,数据 仓库 管理 员 能 知道 哪些 数据 没有 被 使 用 , 它 
们 很 可 能 就 是 休眠 数 据 。 


3. 删除 休眠 数据 


删除 休 了 眠 数据 的 方法 有 以 下 3 种 。 

(1) 直接 删除 休眠 数据 

直接 删除 休眠 数据 有 两 种 方式 : 

@ 删除 用 户 不 访问 的 数据 。 这 种 删除 可 能 会 出 现 的 问题 是 ,这 些 数据 将 来 用 户 又 可 能 
会 使 用 它 。 同 样 ,最 近 使 用 的 数据 ,在 将 来 又 可 能 不 使 用 它 。 

@ 通过 数据 访问 模型 来 删除 休眠 数据 。 数 据 访问 模型 是 需要 和 用 户 一 起 来 确定 将 来 
事务 活动 中 需要 访问 的 数据 ,根据 该 模型 来 删除 将 来 不 被 访问 的 休眠 数据 。 这 种 方式 更 
合理 。 

(2) 对 休 眼 数据 归档 存储 

将 已 确定 的 休眠 数据 归档 存 入 一 个 大 容量 的 存储 媒介 中 ,例如 磁带 。 

(3) 邻 线 (near line) 存 储 

数据 仓库 的 数据 是 在 线 (on line) 存 储 , 邻 线 存 储 是 一 种 二 级 数据 存储 方式 。“ 邻 线 ” 介 
于 “在 线 ” 和 “离线 (off line)" 之 间 , 将 休眠 数据 从 数据 仓库 的 在 线 存 储 中 转移 到 邻 线 存储 
中 ,平时 不 参与 数据 仓库 的 运行 ,但 在 必要 时 ,可 以 被 在 线 存储 合理 利用 。 邻 线 存 储 的 花费 
比 在 线 存储 少 , 但 比 归档 存储 多 。 这 是 一 种 有 效 的 删除 休眠 数据 的 方式 。 


5.1.2.2 脏 数 据 的 产生 和 清理 


脏 数据 是 指 在 数据 源 中 抽取 、 转 换 和 装载 到 数据 仓库 的 过 程 中 出 现 的 多 余数 据 和 无 用 
数据 。 


1, 产生 脏 数据 的 途径 


(1) 开始 时 定义 了 一 些 多 余 的 数据 或 由 于 一 些 不 合适 的 转换 规则 在 转换 过 程 中 产生 的 
无 用 数据 。 

(2) 来 自 不 同 数据 源 的 数据 在 数据 结构 .数据 编码 ,数据 定义 等 方面 是 不 兼容 的 ,在 集 
成 这 些 数据 时 未 对 所 有 不 同情 况 的 数据 都 转换 成 统一 形式 ,产生 遗漏 或 用 了 不 匹配 的 转换 
方法 而 产生 脏 数据 。 

(3) 输入 的 数据 已 经 过 期 。 由 于 工作 业务 的 改变 , 某 些 前 期 业务 的 数据 已 经 过 期 , 仍 遗 
留 在 数据 仓库 中 而 造成 的 过 期 无 用 数据 。 

(4) 用 户 需求 的 改变 或 数据 质量 有 了 新 的 要 求 时 ,那些 没有 适应 改变 要 求 的 数据 成 了 
无 用 的 脏 数据 。 如 刷新 数据 的 周期 缩短 后 ,未 适应 刷新 要 求 的 旧 数 据 已 成 为 无 用 数据 。 


2. 清理 脏 数据 


清理 以 上 脏 数据 的 方法 有 : 
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(1) 检查 抽取 数据 的 定义 和 数据 转换 规则 的 正确 性 ,对 那些 不 合适 的 定义 与 规则 所 造 
成 的 脏 数据 进行 清理 。 

(2) 在 对 多 个 数据 源 进行 集成 时 ,必须 对 所 有 的 不 同 结构 .不 同 编码 不 同 定义 的 数据 ， 
严格 按 统一 形式 转换 后 再 集成 ,清除 那些 遗漏 或 不 匹配 方法 而 产生 的 脏 数 据 。 

(3) 对 过 期 数据 ,在 形成 历史 数据 后 ,根据 这 种 数据 量 的 大 小 来 决定 是 否 需要 进行 重新 
整理 : 对 数据 量 较 少 时 进行 重新 整理 ;对 数据 量 较 大 时 ,增加 一 些 时 间 限 制 的 规则 来 帮助 对 
数据 的 使 用 。 


5.1.2.3 监视 数据 


管理 大 量 数据 的 最 好 方法 是 删除 休 眼 数据 和 脏 数据 。 为 了 删除 休 眼 数据 和 脏 数据 , 必 
须 查找 哪些 数据 是 真正 休眠 数据 和 脏 数 据 , 识 别 它们 的 最 好 方法 是 利用 活动 监视 器 ( 即 数据 
使 用 跟踪 器 ) 。 活 动 监 视 器 位 于 最 终 用 户 和 数据 仓库 之 间 并 且 查 看 每 个 经 过 系统 的 活动 , 输 
和 人 数据 仓库 中 的 SQL 语句 和 查询 活动 产生 的 结果 集 可 以 通过 监视 器 来 检查 。 监 视 活动 分 
为 3 个 级 别 : 表格 级 、 表 格 / 列 级 和 表格 / 列 / 值 级 。 监 视 活动 的 开销 一 般 是 较 大 的 。 


1. 监视 休眠 数据 


监视 休眠 数据 分 为 三 级 : 表格 级 休眠 、 列 级 休眠 和 值 级 休眠 。 

(1) 表格 级 休眠 

它 发 生 在 没有 使 用 某 个 实体 中 的 一 个 表格 时 。 表 格 休眠 通常 出 现 于 小 表格 和 包括 概括 
数据 的 表格 中 ,这 些 类 型 的 表格 通常 是 在 数据 临时 被 使 用 时 创建 的 。 在 分 析 结 束 时 ,忘记 了 
清除 系统 中 这 些 普通 创建 的 作业 表格 。 另 一 种 可 能 性 是 系统 在 需要 的 时 候 创建 概括 表格 ， 
但 后 来 再 也 不 需要 这 些 表格 。 当 发 现 这 些 表 格 后 ,从 数据 仓库 中 删除 实体 中 的 这 个 表格 
即 可 。 

(2) 列 级 休眠 

列 级 休眠 出 现在 当 某 一 整 列 或 多 列 不 被 访问 时 。 造 成 的 原因 是 最 终 用 户 没 有 真正 认识 
到 某 列 在 将 来 会 有 什么 用 途 , 但 在 设计 数据 仓库 时 却 指定 了 需要 此 列 。 由 于 数据 仓库 要 承 
担 未 知 的 探索 ,那么 出 现 这 样 的 一 个 需求 并 没有 什么 不 合理 。 出 现 列 休眠 的 另 一 个 原因 是 
最 终 用 户 不 知道 这 列 存在 。 或 许 最 终 用 户 发 现 了 一 个 更 好 的 数据 源 可 用 来 代替 此 列 。 删 除 
休 眼 列 不 是 一 件 容易 的 事情 ,对 这 类 数据 的 重组 需要 大 量 资源 。 

(3) 值 级 休眠 

数据 休眠 出 现在 某 个 表格 中 的 数值 不 会 被 访问 时 。 这 是 一 种 非常 普遍 的 数据 休 眼 类 
型 。 产 生 的 原因 是 最 终 用 户 指定 了 过 多 的 大 量 历史 数据 。 例 如 用 户 表 示 需 要 两 年 的 数据 ， 
一 旦 建立 数据 仓库 并 加 载 了 两 年 的 历史 数据 ,结果 用 户 发 现实 际 上 只 需要 3 个 月 的 数据 , 造 
成 大 量 历史 数据 果 在 数据 仓库 中 而 没有 什么 用 途 。 造 成 数据 值 休眠 的 另 一 种 原因 是 这 类 数 
据 毫 无 商业 利益 。 

一 旦 发 现 数据 值 休眠 就 删除 它 是 非常 容易 的 事 。 识 别 出 这 种 值 就 从 数据 仓库 中 读 取 
它 , 然 后 删除 或 归档 。 最 后 由 数据 仓库 管理 员 (DBA) 回 收 它们 占据 的 空间 。 
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2. 监视 脏 数据 


活动 监视 器 监视 数据 仓库 中 的 数据 内 容 , 并 且 数 据 业 务 规划 识别 出 不 符合 规划 的 所 有 
行 或 数据 记录 。 

当 监 视 器 发 现 脏 数 据 时 ,是 否 意味 着 必须 立刻 改正 数据 ? 答案 是 ,但 不 是 必需 的 。 在 很 
多 方面 ,在 数据 仓库 中 监视 数据 所 带 来 的 问题 比 它 能 解决 的 问题 更 多 。 

(1) 如 果 只 有 少量 不 正确 的 记录 ,有 可 能 并 不 值得 做 这 种 改正 工作 。 

(2) 如 果 有 大 量 的 数据 是 不 正确 的 , 则 补救 的 方法 是 改正 数据 之 前 ,修改 引起 这 种 问题 
的 程序 。 

(3) 某 些 时 候 ,虽然 知道 数据 不 正确 ,但 是 没有 办 法 知道 合适 的 数值 应 该 是 多 少 。 

在 多 数 时 候 ,只 是 需要 获得 脏 数据 量 , 而 不 需要 实际 进入 并 改正 数据 。 


5.1.2.4 元 数据 管理 
1. 评估 元 数据 的 价值 


元 数据 在 多 个 级 别 上 为 数据 仓库 创造 价值 。 

(1) 描述 应 用 程序 操作 数据 的 机 制 和 控制 运行 机 制 的 元 数据 ,使 系统 开发 人 员 就 能 够 
理解 应 用 程序 内 部 结构 和 数据 之 间 的 相互 关系 。 

(2) 在 数据 仓库 环境 中 元 数据 通过 3 种 方式 发 挥 作 用 : 

。 描述 源 和 目标 的 数据 模型 ; 

。 在 装载 数据 时 描述 转换 集成 的 数据 流 ; 

。 为 用 户 导航 ,找到 所 需要 的 数据 。 

(3) 获取 数据 和 使 用 数据 的 元 数据 是 元 数据 价值 最 大 的 用 途 。 一 个 好 的 数据 仓库 具备 
从 多 个 系统 中 合并 数据 和 使 用 数据 的 能 力 , 包 括 数据 仓库 设计 和 建 模 工 具 , 数 据 抽 取 工 具 、 
转换 、 合 并 、 清 洗 工具 ,查询 分 析 和 执行 管理 工具 ,终端 用 户 查 询 和 分 析 工具 等 。 为 了 使 这 些 
工具 有 效 地 协同 工作 ,这 些 工具 必须 可 以 共享 在 这 个 环境 中 共同 感 兴趣 的 元 数据 。 

随 着 技术 的 发 展 ,元 数据 访问 和 协同 工作 越 来 越 重 要 。 下 一 代数 据 仓库 已 经 从 大 的 数 
据 仓 库 体系 结构 开始 过 渡 到 小 的 ,分布 式 的 、 面 向 特定 应 用 的 数据 集 市 。 

在 分 布 式 环境 中 ,多 个 数据 集 市 致力 于 特定 的 面向 商业 功能 单元 的 决策 支持 需求 ,如 销 
售 、 金 融 、 产 品 管理 ,售后 服务 等 。 这 些 分 布 式 的 数据 集 市 既 可 以 是 关系 数据 库 ( 一 般 采 用 星 
型 结构 ), 也 可 以 是 多 维 立方 体 .能 够 分 散 生成 各 自 的 子 决策 支持 系统 。 


2. 管理 元 数据 


随 着 元 数据 越 来 越 成 为 公司 重要 的 资源 , 越 来 越 需要 健壮 的 元 数据 管理 功能 ,包括 : 
(1) 支持 企业 范围 内 的 体系 结构 
企业 在 开发 应 用 程序 使 用 数据 仓库 时 ,企业 关心 软件 设计 与 开发 .用 户 接口 .操作 管理 、 
应 用 程序 内 部 的 消息 传递 .数据 的 协同 工作 能 力 。 所 有 这 些 都 驱使 开发 人 员 去 理解 各 种 元 
数据 内 容 , 以 及 元 数据 在 企业 范围 内 的 作用 。 
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(2) 基于 知识 库 的 方法 

元 数据 一 般 存 储 在 其 特定 的 元 数据 知识 库 中 。 因 此 ,企业 可 以 要 求 提供 一 种 机 制 , 可 以 
将 不 同 工 具 支 持 的 元 数据 无 颖 地 转移 到 一 个 共享 的 .公共 的 元 数据 知识 库 中 。 

(3) 配置 管理 

元 数据 知识 库 必 须 提供 标准 的 配置 管理 能 力 , 如 注册 、 退 出 、 版 本 控制 等 。 还 需要 提供 
抽取 、 修 改元 数据 的 定义 以 及 将 其 定义 存 到 知识 库 中 ,还 必须 具有 在 必要 的 时 候 将 元 数据 恢 
复 到 某 一 个 前 版 本 的 功能 。 

(4) 支持 开放 的 元 数据 交换 标准 

企业 内 部 和 外 部 对 元 数据 的 访问 导致 了 对 开放 的 元 数据 交换 标准 支持 的 需求 。 至 少 ， 
企业 元 数据 应 该 支持 MDIS( 元 数据 交换 标准 ) 。 

(5) 动态 交换 和 同步 

企业 应 该 采用 MDIS 标准 ,实现 动态 交换 或 同步 ,否则 需要 一 个 开放 的 元 数据 交换 
有 


5.2 数据 仓库 的 决策 支持 与 决策 支持 系统 


数据 仓库 是 一 种 能 够 提供 重要 战略 信息 ,并 获得 竞争 优势 的 新 技术 ,从 而 得 到 迅速 的 
发 展 。 

经 理 们 和 管理 者 需要 哪些 战略 信息 来 支持 决策 呢 ? 例 如 ,对 自己 公司 的 运营 有 全 面 深 
入 的 了 解 , 了 解 关键 因素 和 它们 之 间 是 如 何 相 互 作用 的 ;监视 这 些 因素 是 如 何 随时 间 变 化 
的 ;将 公司 的 运营 状况 和 市 场 竞 争 及 行业 标准 联系 起 来 比较 多 。 经 理 们 和 管理 者 需要 将 注 
意 力 集中 在 客户 的 需求 和 喜好 上 ,集中 在 新 兴 技 术 、 销 售 \ 市 场 结果 、 产 品 和 服务 质量 水 平等 
事务 上 。 制 定 和 执行 商业 战略 及 目标 时 需要 的 信息 类 型 应 包含 整个 企业 组 织 。 

战略 信息 并 不 为 企业 日 常 运作 所 用 ,不 是 关于 订货 发 货 、 处 理 投诉 或 者 从 银行 账户 提 
款 的 信息 。 战 略 信息 比 这 些 信息 重 要 得 多 ,对 于 企业 的 生存 和 持续 健康 发 展 有 非常 重要 的 
意义 。 企 业 决定 性 的 商业 决策 有 赖 于 正确 的 战略 信息 。 

具体 的 战略 信息 有 

(1) 给 出 销售 量 最 好 的 产品 名 单 ; 

(2) 找 出 出 现 问题 的 地 区 ; 

(3) 追踪 查找 出 现 问题 的 原因 (向 下 钻 取 )， 

(4) 对 比 其 他 的 数据 (横向 钻 取 )， 

(5) 显示 最 大 的 利润 ; 

(6) 当 一 个 地 区 的 销售 低 于 目标 值 时 ,提出 警告 信息 。 

建立 数据 仓库 的 目的 不 只 是 为 了 存储 更 多 的 数据 ,而 是 要 对 这 些 数据 进行 处 理 并 转换 
成 商业 信息 和 知识 ,利用 这 些 信 息 和 知识 来 支持 企业 进行 正确 的 商业 行动 ,并 最 终 获 得 
效益 。 

数据 仓库 的 功能 是 在 恰当 的 时 间 ,把 准确 的 信息 传递 给 决策 者 ,使 决策 者 能 作出 正确 的 
商业 决策 。 
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数据 仓库 的 主要 作用 是 帮助 企业 摆脱 言 目 性 ,提高 决策 的 准确 性 和 决策 速度 ,也 就 是 
说 ,数据 仓库 的 作用 正 是 帮助 企业 把 信息 与 知识 转变 为 力量 (实施 正确 的 行动 并 获得 效益 ) 。 

数据 仓库 的 决策 支持 一 般 包括 查询 与 报表 、 多 维 分 析 与 原因 分 析 、 预 测 未 来 。NCR 数 
据 仓库 公司 提出 了 动态 数据 库 及 相应 的 决策 支持 : 实时 决策 和 自动 决策 。 

针对 实际 问题 ,利用 决策 支持 能 力 , 通 过 人 机 交互 ,达到 辅助 决策 的 系统 称 为 决策 支持 
系统 。 


5.2.1 查询 与 报表 


查询 与 报表 是 数据 仓库 的 最 基本 、 使 用 最 多 的 决策 支持 方式 。 通 过 查询 与 报表 使 决策 
者 了 解 目 前 发 生 了 什么 。 


1. 查询 


数据 仓库 提供 的 查询 环境 的 特点 是 : 

(1) 能 向 用 户 提供 查询 的 初始 化 .公式 表示 和 结果 显示 等 功能 。 

(2) 由 元 数据 来 引导 查询 过 程 。 

(3) 用 户 能 够 轻松 地 浏览 数据 结构 。 

(4) 信息 是 用 户 自 己 主动 索取 的 ,而 不 是 数据 仓库 强加 给 他 们 的 。 

(5) 查询 环境 必须 要 灵活 地 适应 不 同类 型 的 用 户 。 

查询 服务 具体 体现 为 : 

(1) 查询 定义 。 确 保 数据 仓库 用 户 能 够 容易 地 将 商业 需求 转换 成 适当 的 查询 语句 。 

(2) 查询 简化 。 让 数据 和 查询 公式 的 复杂 性 对 用 户 透 明 。 让 用 户 能 够 简单 地 查看 数据 
的 结构 和 属性 。 使 组 合 表格 和 结构 简单 易 用 。 

(3) 查询 重建 。 有 些 简 单 的 查询 也 能 导致 高 强度 的 数据 检索 和 操作 ,因此 要 使 用 户 输 
入 的 查询 进行 分 解 并 重新 塑造 ,使 其 能 更 高 效 地 工作 。 

(4) 导航 的 简单 性 。 用 户 能 够 使 用 元 数据 在 数据 仓库 中 浏览 数据 ,并 能 容易 地 用 商业 
术语 而 不 是 技术 术语 来 导航 。 

(5) 查询 执行 。 使 用 户 能 够 在 没有 任何 IT 人 员 的 帮助 下 提高 并 执行 查询 。 

(6) 结果 显示 。 能 够 以 各 种 方法 显示 查询 结果 。 

(7) 对 聚合 的 了 解 。 查 询 过 程 机 制 必须 知道 聚合 的 事实 表 , 并 且 在 必要 的 时 候 能 够 将 
查询 重新 定义 到 聚合 表格 上 ,以 加 快 检索 速度 。 


2. 报表 


大 部 分 查询 均 要 以 报表 形式 输出 。 数 据 仓库 构建 的 报表 环境 有 : 

(1) 预 格 式 化 报表 。 提 供 这 些 报 表 清 晰 的 描述 说 明 。 使 用 户 能 够 容易 地 浏览 格式 化 报 
表 库 中 的 报表 并 选择 需要 的 报表 。 

(2) 参数 驱动 的 预定 义 报表 。 与 预 格式 化 报表 相 比 ,参数 驱动 的 预定 义 报表 给 了 用 户 
更 多 的 灵活 性 。 用 户 必 须 有 能 力 来 设置 自己 的 参数 ,用 预定 义 格式 创建 报表 。 

(3) 简单 的 报表 开发 。 当 用 户 除了 与 格式 化 报表 或 预定 义 报表 外 还 需要 新 的 报表 时 ， 
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必须 能 够 轻松 地 利用 报表 语言 撰写 工具 来 开发 自己 的 报表 。 

(4) 公布 和 订阅 。 数 据 仓 库 设 置 选项 让 用 户 公布 自己 创建 的 报表 ,并 允许 其 他 用 户 订 
阅 或 者 接收 这 些 报表 的 复制 。 

(5) 传递 选项 。 提 供 各 种 选项 ,诸如 群发 .电子 邮件 、 网 页 和 自动 传真 等 ,让 用 户 传递 报 
表 , 人 允许 用 户 选择 自己 的 方法 来 接收 报表 。 

(6) 多 数据 操作 选项 。 用 户 可 以 请 求 获得 计算 出 来 的 指标 ,通过 交换 行 和 列 变量 来 实 
现 结果 的 旋转 ,在 结果 中 增加 小 计 和 最 后 的 总 计 , 以 及 改变 结果 的 排列 顺序 等 操作 。 

(7) 多 种 展现 方式 选项 。 提 供 多 种 类 型 的 选项 ,包括 图 表 、 表 格 、 柱 形 格式 、 字 体 、 风 格 、 
大 小 和 地 图 等 。 


5.2.2 多 维 分 析 与 原因 分 析 
多 维 分 析 与 原因 分 析 能 让 决策 者 了 解 “为 什么 会 发 生 ”。 
1. 多 维 分 析 


多 维 分 析 是 数据 仓库 的 重要 的 决策 支持 手段 。 数 据 仓 库 中 心 数 据 是 以 多 维 数据 存储 
的 。 通 过 多 维 分 析 将 获得 在 各 种 不 同 维度 下 的 实际 商业 活动 值 (如 销售 量 等 ) ,特别 是 它们 
的 变化 值 和 差 值 ,达到 辅助 决策 效果 。 例 如 通过 多 维 分 析 得 到 如 下 信息 : 

。 今年 以 来 ,公司 的 哪些 产品 量 是 最 有 利润 的 ? 

。 最 有 利润 的 产品 是 不 是 和 去 年 一 样 ? 

。 公司 今年 这 个 季度 的 运营 和 去 年 相 比 情况 如 何 ? 

。 哪些 类 别 的 客户 是 最 忠诚 的 ? 

这 些 问题 的 答案 是 典型 的 基于 分 析 的 面向 决策 的 信息 。 决 策 分 析 往往 是 事先 不 可 知 
的 。 例 如 ,一 个 经 理 可 能 会 以 查询 品牌 利润 , 按 地 区 的 分 布 情况 来 开始 他 的 分 析 活动 。 每 一 
个 利润 的 数值 指 的 是 ,在 指定 的 时 间 内 , 某 个 品牌 所 有 产品 在 该 地 区 的 所 有 地 方 销售 利润 的 
平均 值 。 每 一 个 利润 数值 都 可 能 是 由 成 千 上 万 的 原始 数据 汇聚 而 成 的 。 

这 些 分 析 都 是 建立 在 多 维 数据 分 析 之 上 进行 的 。 


2. 原因 分 析 


查找 问题 出 现 的 原因 是 一 项 很 重要 的 决策 支持 任务 ,一 般 通过 多 维 数据 分 析 的 钻 取 操 
作 来 完成 。 

某 公 司 从 分 析 报 表 中 得 知 最 近 几 个 月 来 整个 企业 的 利润 在 急速 下 滑 ,为 此 系统 分 析 员 
利用 数据 仓库 的 原因 分 析 的 决策 支持 手段 ,通过 人 机 交互 找 出 该 企业 利润 下 滑 的 原因 。 具 
体 步 骤 如 下 : 

(1) 查询 整个 公司 最 近 3 个 月 来 各 个 月 份 的 销售 额 和 利润 ,通过 检索 数据 仓库 中 的 数 
据 显 示 销 售 额 正常 ,但 利润 下 降 。 

(2) 查询 全 世界 各 个 区 域 每 个 月 的 销售 额 和 利润 ,通过 检索 多 维 数据 和 切 块 ,显示 欧洲 
地 区 销售 额 下 降 , 利 润 急 剧 下 降 , 其 他 地 区 正常 。 

(3) 查询 欧洲 各 国 销售 额 和 利润 。 通 过 对 多 维 数据 的 钻 取 , 显 示 一 些 国家 利润 率 上 升 ， 
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一 些 国 家 持平 ,欧盟 国家 利润 率 急剧 下 降 。 

(4) 查询 欧盟 国家 中 的 直接 和 间接 成 本 。 通 过 对 多 维 数据 的 钻 取 ,得 到 欧盟 国家 的 直 
接 成 本 没有 问题 ,但 间接 成 本 提高 了 。 

(5) 查询 间接 成 本 的 详细 情况 。 通 过 钻 取 查看 详细 数据 ,得 出 企业 征收 了 额外 附加 税 ， 
使 利润 下 降 。 

通过 原因 分 析 , 得 到 企业 利润 下 滑 的 真正 原因 是 欧盟 国家 征收 了 额外 附加 税 而 造成 的 。 

在 数据 仓库 中 ,对 宏观 数据 中 发 现 的 问题 ,通过 向 下 钻 取 操作 ,查看 下 层 大量 详 细 的 多 
维 数据 ,才能 发 现 问题 出 现 的 原因 。 针 对 具体 问题 ,通过 数据 仓库 的 原因 分 析 , 找 出 问题 发 
生 的 原因 过 程 ,这 是 一 个 典型 的 数据 仓库 决策 支持 系统 简 例 。 


5.2.3 预测 未 来 


预测 未 来 使 决策 者 了 解 “ 将 要 发 生 什么 ”。 

数据 仓库 中 存放 了 大 量 的 历史 数据 ,从 历史 数据 中 找 出 变化 规律 ,将 可 以 用 来 预测 未 
来 。 在 进行 预测 的 时 候 需要 用 到 一 些 预测 模型 。 最 常用 的 预测 方法 是 采用 回归 模型 ,包括 
线性 回归 或 非 线性 回归 。 利 用 历史 数据 建立 回归 方程 ,该 方程 代表 了 沿 时 间 变 化 的 发 展 规 
律 。 预 测 时 ,代入 预测 的 时 间 到 回归 方程 中 去 就 能 得 到 预测 值 。 一 般 的 预测 模型 有 多 元 回 
归 模 型 .三 次 平滑 预测 模型 .生长 曲线 预测 模型 等 。 

除 用 预测 模型 外 ,采用 聚 类 模型 或 分 类 模型 也 能 达到 一 定 的 预测 效果 。 

聚 类 模型 是 对 没有 类 的 大 量 实例 ,利用 距离 的 远近 (如 欧式 距离 和 海 明 距离 等 ) ,把 大 量 
的 实例 聚 成 不 同 的 类 ,如 K-means 聚 类 算法 和 神经 网 络 的 Kohonen 算法 等 。 把 实例 聚 完 类 
后 ,对 新 的 例子 , 仍 用 距离 大 小 来 判别 它 属于 哪个 类 。 

对 于 分 类 模型 , 它 是 对 已 经 有 了 类 别 后 ,分 别 对 各 个 不 同类 进行 类 特征 的 描述 ,如 决策 
树 方法 .神经 网 络 的 BP 模型 等 。 分 类 模型 是 通过 对 各 类 实例 的 学 习 后 ,得 到 各 类 的 判别 知 
识 ( 即 决策 树 ,神经 网 络 的 网 络 权 数 值 等 ) ,利用 这 些 知 识 可 以 对 新 例 判别 它 属 于 哪个 类 别 。 


5.2.4 实时 决策 


数据 仓库 的 第 4 种 决策 支持 是 企业 需要 准确 了 解 “ 正 在 发 生 什 么 ”, 从 而 需要 建立 动态 
数据 仓库 (实时 数据 库 ) ,用 于 支持 战术 型 决策 , 即 实时 决策 ,有 效 地 解决 当前 的 实际 问题 。 
第 1 到 第 3 种 决策 支持 的 数据 仓库 都 以 支持 企业 内 部 战略 性 决策 为 重点 ,帮助 企业 制定 发 
展 战 略 。 数 据 仓库 对 战略 性 的 决策 支持 是 为 企业 长 期 决策 提供 必需 的 信息 ,包括 市 场 划分 、 
产品 (类 别 ) 管 理 战略 、 获 利 性 分 析 、 预 测 和 其 他 信息 。 战 术 性 决策 支持 的 重点 则 在 企业 外 
部 ,支持 的 是 执行 公司 战略 的 员工 。 第 4 种 侧重 在 战术 性 决策 支持 。 

数据 仓库 的 “实时 决策 ”是 指 为 现场 提供 信息 实时 支持 决策 ,如 能 及 时 补给 的 库存 管理 
和 包 右 发 运 的 日 程 安排 及 路 径 选择 等 。 许 多 零售 商都 倾向 于 由 卖主 管理 库存 ,自己 则 拥有 
一 条 零售 链 和 众多 作为 伙伴 的 供 货 厂 商 , 其 目的 是 通过 更 有 效 的 供 货 链 管理 来 降低 库存 成 
本 。 为 了 使 这 种 合作 获得 成 功 ,就 必须 向 供 货 商 详细 地 提供 有 关 销 售 、 促 销 推广 、 库 内 存货 
等 信息 的 知情 权 。 之 后 便 可 以 根据 每 个 商店 和 每 个 商品 对 库存 的 要 求 ,建立 并 实施 有 效 的 
生产 和 交 货 计划 。 为 了 保证 信息 确实 有 价值 ,必须 随时 刷新 信息 ,还 要 非常 快 地 对 查询 作出 
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响应 。 
动态 数据 仓库 能 够 逐 项 产品 、 逐 个 店铺 、 逐 秒 地 作出 最 佳 决策 支持 。 

以 货运 为 例 。 统 筹 安排 货运 车 辆 和 运输 路 线 , 需 要 进行 非常 复杂 的 决策 。 卡 车 上 的 货 
物 常常 需要 打开 ,把 某 些 货物 从 一 辆 车 转移 到 男 一 辆 车 上 ,以 便 最 终 送 抵 各 自 的 目的 地 。 这 
有 些 像 旅客 在 枢纽 机 场 转机 。 当 某 些 卡车 晚点 时 ,就 要 作出 艰难 的 决定 : 是 让 后 继 的 运输 
车 等 待 迟到 的 货物 ,还 是 让 其 按时 出 发 。 如 果 后 继 车 辆 按时 出 发 而 未 等 待 迟到 的 包 裴 ,那么 
迟到 包 夺 的 服务 等 级 就 会 大 打折 扣 。 反 过 来 说 ,等 待 迟 到 的 包 右 则 将 损害 在 后 继 的 运输 车 
上 的 其 他 待 运 包 庄 的 服务 等 级 。 

运输 车 究竟 等 待 多 长 时 间 ,取决 于 需 印 装 到 该 车 辆 的 所 有 延迟 货物 的 服务 等 级 和 已 经 
装载 到 该 车 辆 的 货物 的 服务 等 级 。 很 显然 ,第 二 天 就 应 该 抵达 目的 地 的 货物 和 数 天 后 才 需 
抵达 目的 地 的 货物 ,二 者 的 服务 等 级 及 其 实现 难度 是 大 不 相同 的 。 此 外 ,发 货 方 和 收 货 方 也 
是 决策 的 重要 考虑 因素 。 对 企业 赢利 十 分 重要 的 客户 ,其 货物 的 服务 等 级 应 该 相应 提高 ,以 
免 因 货物 迟到 破坏 双方 关系 。 延 误 货物 的 运输 路 线 、 天 气 条件 和 许多 其 他 的 因素 也 应 予以 
考虑 。 能 够 在 这 种 情况 下 作出 明智 的 决策 ,相当 于 解决 了 一 个 非常 复杂 的 优化 问题 。 

显然 易 见 ,零担 散 货 部 经 理应 在 先进 决策 支持 功能 的 帮助 下 , 极 大 地 提高 其 计划 和 路 径 
选择 的 决策 质量 。 更 重要 的 是 , 若 要 实现 数据 仓库 的 决策 支持 能 力 , 作 为 决策 基础 的 信息 就 
必须 保持 随时 更 新 。 这 就 是 说 ,为 了 使 数据 仓库 的 决策 功能 真正 服务 日 常 业务 ,就 必须 连续 
不 断 地 获取 数据 并 将 其 填充 到 数据 仓库 中 。 战 略 决策 可 使 用 按 月 或 周 更 新 的 数据 ,而 以 这 
种 频率 更 新 的 数据 是 无 法 支持 战术 决策 的 。 此 外 ,查询 响应 时 间 必 须 以 秒 为 单位 来 衡量 , 才 
能 满足 作业 现场 的 决策 需要 。 

与 传统 的 数据 仓库 一 样 ,最 佳 的 动态 数据 仓库 是 跨越 企业 职能 和 部 门 界限 的 。 它 既 可 
为 战术 决策 也 可 为 战略 决策 提供 资源 支持 。 动 态 数据 仓库 是 为 支持 企业 级 业务 目标 而 设计 
的 。 与 传统 的 数据 仓库 相 比 ,更 加 深入 到 企业 内 部 ,能 将 企业 的 多 种 渠道 ,包括 网 络 、 呼 叫 中 
心 和 其 他 客户 联络 点 联 为 一 体 , 还 意味 着 通过 网 络 ,在 企业 各 个 角落 配置 决策 人 员 。 

动态 数据 仓库 的 主要 功能 是 缩短 重要 业务 决策 及 其 实施 之 间 的 时 间 。 重 要 的 是 将 动态 
数据 仓库 所 做 的 数据 分 析 转 换 成 可 操作 的 决策 ,这 样 才能 将 数据 仓库 的 价值 最 大 化 。 动 态 
数据 仓库 的 主导 思想 是 提高 业务 决策 的 速度 和 准确 性 ,其 目标 是 达到 近乎 实时 决策 ,生成 最 
大 价值 。 


5.2.5 自动 决策 


数据 仓库 的 第 5 种 决策 支持 是 由 事件 触发 ,利用 动态 数据 库 自动 决策 ,达到 “希望 发 生 
什么 ”。 
动态 数据 仓库 在 决策 支持 领域 中 的 角色 越 重 要 ,企业 实现 决策 自动 化 的 积极 性 就 越 高 。 
在 人 工 操作 效果 不 明显 时 ,为 了 寻求 决策 的 有 效 性 和 连续 性 ,企业 就 会 趋向 于 采取 自动 决 
策 。 在 电子 商务 模式 中 , 面 对 客 户 与 网 站 的 互动 ,企业 只 能 选择 自动 决策 。 网 站 中 或 ATM 
系统 所 采用 的 交互 式 客户 关系 管理 (CRM) 是 一 个 个 性 化 产品 供应 .定价 和 内 容 发 送 的 优化 
客户 关系 的 决策 过 程 。 这 一 复杂 的 过 程 在 无 人 介入 的 情况 下 自动 发 生 ,响应 时 间 以 秒 或 毫 
秒 计算 。 
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随 着 技术 的 进步 , 越 来 越 多 的 决策 由 事件 触发 ,自动 发 生 。 例 如 ,零售 业 正面 临 电子 货 
架 标签 的 技术 突破 。 该 技术 的 出 现 废除 了 原先 沿用 已 久 的 手工 更 换 的 老式 聚 酯 薄膜 标签 。 
电子 标签 可 以 通过 计算 机 远程 控制 ,改变 标价 ,无 需 任 何 手工 操作 。 电 子 货架 标签 技术 结合 
动态 数据 仓库 ,可 以 帮助 企业 按照 自己 的 意愿 ,实现 复杂 的 价格 管理 自动 化 ;对 于 库存 过 大 
的 季节 性 货物 ,这 两 项 技术 会 自动 实施 复杂 的 降价 策略 ,以 便 以 最 低 的 损耗 售 出 最 多 的 存 
货 。 降 价 决策 在 手工 定价 时 代 是 一 种 非常 复杂 的 操作 ,往往 代价 高 昂 ,超过 了 企业 的 承受 能 
力 。 带 有 促销 信息 和 动态 定价 功能 的 电子 货架 标签 ,为 价格 管理 带 来 了 一 个 全 新 的 世界 。 
而 且 ,动态 数据 仓库 还 允许 用 户 采 用 事件 触发 和 复杂 决策 支持 功能 ,以 最 佳 方案 , 逐 件 货品 ， 
逐 家 店铺 ,随时 作出 决策 。 在 CRM 环境 中 ,利用 动态 数据 仓库 ,根据 每 一 位 客户 的 情况 作 
出 决策 都 是 可 能 的 。 

激烈 的 竞争 形势 和 日 新 月 异 的 技术 革新 推动 了 决策 技术 的 进步 。 动 态 数据 仓库 可 以 为 
整个 企业 提供 信息 和 决策 支持 ,而 不 只 限于 战略 决策 过 程 。 然 而 ,战术 决策 支持 并 不 代替 战 
略 决策 支持 。 确 切 地 说 ,动态 数据 仓库 同时 支持 这 两 种 方式 。 动 态 数据 仓库 的 主要 工作 量 
仍然 是 战略 性 的 。 


5.2.6 决策 支持 系统 


数据 仓库 整合 了 企业 的 各 种 信息 来 源 , 能 确保 一 致 与 正确 ,详细 的 数据 。 它 是 一 个 庞大 
的 数据 资源 。 要 将 数据 转换 成 商业 智能 ,就 需要 利用 数据 仓库 来 建立 决策 支持 系统 。 

基于 数据 仓库 的 决策 支持 系统 是 针对 实际 问题 ,利用 分 析 工 具 或 者 编制 程序 ,采用 一 种 
或 多 种 组 合 的 决策 支持 能 力 ,例如 随机 查询 .灵活 的 报表 、 预 测 模型 等 ,对 数据 仓库 中 的 数据 
进行 多 维 分 析 , 从 而 掌握 企业 的 经 营 现状 , 找 出 现状 的 原因 ,并 预测 未 来 的 发 展 趋势 ,弥补 经 
验 和 直觉 的 不 足 ,协助 企业 制定 决策 ,增强 竞争 优势 。 

根据 NCR 公司 在 企业 政策 制定 调查 中 ,发 现 企业 的 决策 危机 日 益 严 重 。 虽然 有 更 多 
的 数据 ,但 是 也 有 更 多 的 决策 ,同时 决策 也 更 加 复杂 化 。 

调查 中 有 98% 的 管理 者 说 数据 一 直 在 增加 中 , 随 着 数据 每 年 2 倍 或 3 倍 的 增长 ,他们 
会 被 数据 "淹没 "。 有 75% 的 管理 者 表示 他 们 每 天 所 做 的 决策 比 以 往 多 。 有 52% 的 决策 更 
为 复杂 ,这 其 中 有 83% 的 人 说 他 们 必须 针对 每 一 决策 去 咨询 3 个 或 更 多 的 信息 来 源 。 

只 有 建立 基于 数据 仓库 的 决策 支持 系统 ,才能 适应 这 种 发 展 趋势 ,才能 在 适当 的 时 间 获 
得 正确 的 信息 ,快速 地 将 这 些 信息 转换 成 正确 的 决策 。 

NCR 公司 总 裁 M. Hard 列举 了 3 个 不 同性 质 的 公司 失败 的 案例 ,是 不 明智 决策 的 
结果 。 

(1) 霸 萎 银行 ,英国 最 老 的 银行 之 一 (成 立 于 1762 年 ) ,在 1995 年 因为 在 新 加 坡 分 公司 
一 位 员工 有 29000 美元 的 错误 ,在 伦敦 的 管理 层 ,并 不 清楚 在 新 加 坡 所 发 生 的 状况 ,由 于 在 
决策 上 历经 一 连 串 错 误 的 决策 ,不 出 3 年 ,银行 垮 了 。 分 析 原 因 : 霸 萎 银行 缺乏 企业 单一 整 
合 的 观点 ,缺乏 可 用 详细 的 数据 ,显然 在 每 日 .每 周 甚至 于 每 年 的 基准 上 ,缺乏 适当 的 检查 点 
或 事业 监督 。 

(2) F. W. Woolworth 于 1879 年 在 美洲 开 了 第 一 家 店 ,118 年 来 它 提 供 了 优惠 价格 的 
产品 ,培养 了 广大 的 客户 忠诚 度 。 它 一 直 是 人 们 的 采购 商品 的 地 方 ,可 买 到 任何 东西 。 但 
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是 ,他 忽略 了 人 口 统计 的 改变 与 人 们 搬 住 郊区 的 趋势 ,未 实时 随 市 场 的 改变 而 调整 ,最 终 被 
般 新 的 零售 业 ,如 Wal-Mart 与 Target 等 公司 击败 。 
(3) 美国 环球 航空 TWA,1920 年 开始 航空 邮递 时 代 , 在 1930 年 , 它 在 现代 技术 进展 上 


领先 , 曾 横贯 大 陆 与 横贯 大 西洋 的 飞行 。 但 是 ,后 来 它 缺乏 信息 科技 的 基础 对 


E 设 来 应 付 新 的 


竞争 环境 ,在 多 处 还 停留 在 30 年 前 技术 的 基础 建设 上 ,在 倒闭 前 一 年 ,终于 了 解 必须 结合 
自 多 个 系统 的 财务 ,市场 与 销售 数据 ,以 便 因 市 场 改 变 快速 而 作出 精确 的 反应 ,但 一 切 都 为 


时 过 晚 。 


对 以 上 的 3 个 公司 的 分 析 得 出 ,建立 基于 数据 仓库 的 决策 支持 系统 的 公司 也 许可 以 避 


免 失败 的 命运 。 


5.3 数据 仓库 应 用 实例 


5.3.1 航空 公司 数据 仓库 决策 支持 系统 简 例 


1. 航空 公司 数据 仓库 系统 的 功能 
航空 公司 数据 仓库 功能 模块 有 如 下 几 个 。 


， 市 场 分 析 :， 
。 航 班 分 析 : 
。 班期 分 析 : 
。 时段 分 析 : 
。 效益 分 析 : 
。 机 型 分 析 : 
。 因素 分 析 : 


分 析 国 内 、 国 际 、 地 区 航线 上 的 各 项 生产 指标 。 

分 析 某 个 特定 市 场 上 所 有 航班 的 生产 情况 。 

分 析 某 个 特定 市 场 上 各 班期 的 旅客 、 货 运 分 布 情况 。 
分 析 一 段 时 间 范 围 内 每 天 不 同时 段 的 流量 分 布 。 
分 析 航 线 .航班 的 效益 。 

分 析 不 同 种 机 型 对 客座 率 等 关键 指标 的 影响 。 


分 析 某 个 关键 指标 发 生变 化 后 对 其 他 指标 的 影响 程度 。 


2. 数据 仓库 系统 的 决策 支持 


利用 数据 仓库 系统 提供 的 决策 支持 有 : 

。 一段 时 间 内 某 特定 市 场 占有 率 、 同 期 比较 、 增 长 趋势 ; 
。 各 条 航线 的 收益 分 析 ; 

。 计划 完成 情况 ; 

”流量 流向 分 析 ; 

。 航线 上 各 项 生产 指标 变化 趋势 的 分 析 ; 
。 航线 上 按 班 期 分 析 、 汇 总 各 项 趋势 ; 

。 航线 上 按 航班 时 刻 分 析 各 项 指标 ; 

。 航线 上 不 同 航班 性 质 比 较 ; 

。 航线 上 运力 投入 结构 比较 ; 

”分 机 型 的 航线 运输 统计 ; 


飞机 利用 率 统计 ; 


* 109 % 


。 城 市 对 流量 、 流 向 对 比 ; 

。 航向 分 机 型 收益 比较 ; 

。 航班 计划 评估 ; 

。 航 线 上 不 同 机 型 的 舱位 利用 情况 。 


3. 决策 支持 系统 简 例 
通过 查询 “北京 到 各 地 区 的 航空 市 场 情况 ”, 发 现 西 南 地 区 总 周转 量 出 现 了 最 大 负增长 
量 。 该 决策 支持 系统 简 例 就 是 完成 对 此 问题 进行 多 维 分 析 和 原因 分 析 , 找 出 出 现 的 原因 。 


具体 步骤 如 下 : 

(1) 查询 : 全 国 各 地 区 的 航空 总 周转 量 并 比较 去 年 同期 状况 

从 数据 仓库 的 综合 数据 中 查 出 北京 到 国内 各 地 区 航空 间 转 量 并 与 去 年 同期 比较 增长 
量 , 制 成 直方 图 进行 显示 ,如 图 5. 1 所 示 。 


800 — 
70| 一 下 
600 
500 站 
0 口 总 周转 量 
30| | | 目 总 周转 量 比 去 年 同 
200 期 增长 
om | 

0 Da = 口 
3 

注 1: 东北 地 区 ，2: 华北 地 区 ，3: 华东 地 区 ，4: 西北 地 区 ， 

5; 西南 地 区 ，6: 新 疆 地 区 ，7: 中 南 地 区 


图 5.1 全 国 各 地 区 航空 周转 量 与 去 年 对 比 状况 


从 图 5. 1 中 看 到 从 北京 到 国内 各 地 区 的 总 周转 量 以 及 与 去 年 同期 的 比较 情况 ,发 现 
“北京 一 西南 地 区 ”出 现 的 负增长 最 大 。 

(2) 查询 : 全 国 各 地 区 客运 周转 量 以 及 与 去 年 同期 相 比较 

从 数据 仓库 的 总 周转 量 数据 中 下 钻 到 客运 周转 量 并 与 去 年 同期 比较 增长 量 , 制 成 直方 
图 显示 ,如 图 5. 2 所 示 。 


400 口 客运 周转 量 


300 量 客运 周转 量 比 去 年 
5 同期 增长 


1 人 -7 
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注 : 1: 东北 地 区 ; 2: 华北 地 区 ; 3: 华东 地 区 ; 4: 西北 地 区 ; 
5: 西南 地 区 ，6: 新 疆 地 区 ; 7: 中 南 地 区 


图 5.2 全 国 各 地 区 航空 客运 周转 量 及 与 去 年 同期 比较 
> 


从 图 5. 2 中 看 到 客运 周转 量 及 与 去 年 同期 比较 ,西南 地 区 负增长 在 全 国 是 最 大 的 ,其 次 
是 东北 地 区 。 

(3) 查询 : 全 国 各 地 区 航空 货运 周转 量 及 与 去 年 同期 比较 

从 数据 仓库 的 总 周转 量 数据 中 下 外 到 货运 周转 量 并 与 去 年 同期 比较 增长 量 , 制 成 直方 
图 显示 ,如 图 5. 3 所 示 。 
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注 : 1: 东北 地 区 ; 2: 华北 地 区 ; 3: 华东 地 区 ，4: 西北 地 区 ; 


5: 西南 地 区 ，6: 新 疆 地 区 ，7: 中 南 地 区 
图 5.3 北京 到 国内 各 地 区 货运 周转 量 及 与 去 年 同期 比较 
从 图 5. 3 中 看 到 货运 周转 量 及 与 去 年 同期 比较 ,华东 地 区 负增长 在 全 国 是 最 大 的 ,西南 
地 区 也 有 负增长 。 


(4) 查询 : 全 国 各 地 区 客运 ,货运 、 总 周转 量 及 与 去 年 同期 比较 的 具体 数据 
从 数据 仓库 综合 数据 中 直接 取 数 据 , 制 成 表格 显示 ,如 表 5.1 所 示 。 


表 5.1 客运 ,货运 ,总 周转 量 及 与 去 年 同期 比较 
项 目 客运 周转 量 对 比 去 年 增长 量 货运 周转 量 对 比 去 年 增长 量 ”总 周转 量 ”对 比 去 年 增长 量 


东北 地 区 11. 86 =5.1 1.29 一 二 二 13:15 一 6.6 
华北 地 区 34.88 15.03 1.11 0.75 36 15.78 
华东 地 区 479. 30 126. 52 36. 16 = 是 i 骏 515. 46 100. 93 
西北 地 区 51.60 18.05 9.0 .和 60.6 25.35 
西南 地 区 15. 43 = 和 .36 3. 29 一 0. 56 18.72 一 19.91 
新 疆 地 区 29.02 0 5.85 0 34.87 0 

中 南 地 区 643. 43 295. 86 116. 85 60.70 760. 28 356. 56 


从 表 5. 1 中 可 以 看 出 航空 客运 、 货 运 、 总 周转 量 以 及 与 去 年 同期 比较 的 具体 数据 。 西 南 
地 区 总 周转 量 的 负增长 主要 是 客运 负增长 为 主体 。 

(5) 查询 : 西南 地 区 昆明 .重庆 两 地 航空 总 周转 量 以 及 与 去 年 同期 比较 

从 数据 仓库 总 周转 量 下 钻 到 西南 地 区 昆明 .重庆 两 地 的 总 周转 量 以 及 与 去 年 同期 的 比 
较 , 制 成 直方 图 显示 ,如 图 5.4 所 示 。 
从 图 5. 4 中 看 出 ,西南 地 区 航空 总 周转 量 下 降 最 多 的 是 昆明 航线 。 
(6) 查询 : 昆明 航线 按 不 同 机 型 显示 各 自 的 总 周转 量 并 比较 去 年 同期 情况 
从 数据 仓库 中 西南 地 区 取出 按 机 型 维 的 各 自 机 型 的 总 周转 量 以 及 比较 去 年 同期 增长 

了 生 刘 让 党 
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图 5.4 西南 地 区 昆明 .重庆 两 地 航空 总 周转 量 及 与 去 年 同期 比较 


量 , 用 柱 形 图 显示 ,如 图 5. 5 所 示 。 


有. 西南 地 区 机 型 

口 总 周转 量 

曙 总 周转 量 比 去 年 
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A B C D 
注 : A: 150 座 级 ; B:200 座 级 ; C: 300 座 级 以 上 ，D: 200 ~300 座 级 


图 5.5 昆明 航线 各 机 型 总 周转 量 以 及 与 去 年 同期 比较 的 柱 形 图 


从 图 5. 5 可 以 看 出 昆明 航线 中 200 一 300 座 级 机 型 负增长 最 大 ,其 次 是 150 座 级 机 型 也 
有 较 大 的 负增长 ,而 200 座 级 以 及 300 座 级 以 上 机 型 保持 同 去 年 相同 航运 水 平 。 
(7) 查询 : 昆明 航线 按 不 同 机 型 的 周转 量 并 比较 去 年 同期 的 具体 数据 
从 数据 仓库 中 直接 取 数 据 , 制 成 表格 显示 ,如 表 5.2 所 示 。 
表 5.2 昆明 航线 各 机 型 总 周转 量 以 及 与 去 年 同期 比较 的 数据 


项 目 总 周转 量 对 比 去 年 增长 量 
150 座 级 12. 99 一 16. 83 
200 座 级 10. 07 0 
300 座 级 以 上 10. 07 0 
200 一 300 座 级 2.91 一 26.9 


从 表 5. 2 中 可 以 看 出 ,不 同 机 型 的 总 周转 量 以 及 对 比 去 年 同期 增长 的 具体 数据 。 

以 上 决策 支持 系统 过 程 完成 了 对 航空 公司 全 国 各 地 区 总 周转 量 对 比 去 年 同期 出 现 负 增 
长 量 最 大 的 西南 地 区 ,经 过 多 维 分 析 和 原因 分 析 , 找 出 其 原因 发 生 在 昆明 航线 上 ,主要 是 
200 一 300 座 级 机 型 的 总 周转 量 负 增长 以 及 150 座 级 机 型 负增长 量 造 成 的 。 其 中 ,200 一 300 
座 级 负增长 最 严重 。 这 为 决策 者 提供 了 解决 西南 地 区 负增长 问题 辅助 决策 的 信息 。 


a 全 


4. 决策 支持 系统 结构 图 
将 以 上 决策 支持 系统 过 程 用 决策 支持 系统 结构 图 画 出 ,如 图 5.6 所 示 。 


客户 端 数据 仓库 服务 器 
查询 : 全 国 各 地 区 航空 总 周转 量 并 比较 去 年 [IE 检索 : 数据 仓库 中 今年 、 去 


同期 状况 年 两 年 总 周转 量 综合 数据 ， 
| 并 比较 


绘制 直方 图 


查询 : 全 国 各 地 区 航空 客运 周转 量 并 比较 去 | 下 钻 : 从 总 周转 量 下 钻 到 今 
年 同期 状况 年 、 去 年 两 年 客运 周转 量 ， 
并 比较 
图 5.2 绘制 直方 图 


1 
查询 : 全 国 各 地 区 航空 货运 周转 量 并 比较 去 和 一 一 一 一 ”J 下 钻 : 从 总 周转 量 下 钻 到 今 


年 同期 状况 年 、 去 年 两 年 货运 周转 量 ， 
并 比较 
显示 : 图 5.3 绘制 直方 


1 
查询 : 全 国 各 地 区 客运 、 货 运 、 总 周转 量 并 一 一 一 制 表 : 从 数据 仓库 中 取 数 据 
比较 去 年 同期 状况 具体 数据 -一 一 | 并 制 表 


et | 


1 
查询 : 西南 地 区 昆明 、 重 庆 两 地 航空 总 周转 一 一 一 上 J 下 钼 : 从 西南 地 区 总 周转 量 


量 并 比较 去 年 同期 状况 下 钻 ， 取 昆明 、 重 庆 两 地 的 
今年 、 去 年 两 年 数据 并 比较 
显示 : 图 5.4 绘制 直方 图 


1 
查询 : 昆明 航线 按 不 同 机 型 的 总 周转 量 , 并 一 一 一 2 下 钻 : 从 昆明 航线 总 周转 量 
比较 去 年 同期 状况 Ls | 下 钻 ， 取 各 机 型 今年 、 去 年 


| 两 年 数据 并 比较 
显示 : 图 5.5 绘制 直方 图 


查询 : 昆明 航线 按 不 同 机 型 的 周转 量 ， 并 比 一 一 一 3 制 表 : 从 数据 仓库 中 取 数 据 


| 并 制 表 


显示 : 表 5.2 


| 


结束 


5.6 决策 支持 系统 结构 图 


二 省 信 : 坟 


5. 决策 支持 系统 应 用 


以 上 决策 支持 系统 只 是 找 出 西南 地 区 航运 负增长 问题 是 由 于 在 昆明 航线 上 200 一 300 
座 级 以 及 150 座 级 机 型 的 负增长 所 直接 造成 的 原因 之 一 。 还 可 以 通过 昆明 航线 上 航班 时 间 
以 及 其 他 方面 进行 原因 分 析 , 找 出 其 他 原因 ,为 决策 者 提供 更 多 的 辅助 决策 信息 。 

同样 ,可 以 从 国内 各 地 区 航空 市 场 状况 中 对 比 去 年 同期 增长 显著 的 中 南 地 区 , 找 出 总 周 
转 量 大 幅 提高 的 原因 。 

从 正 反 两 方面 进行 多 维 分 析 和 原因 分 析 , 将 得 到 更 多 的 辅助 决策 信息 ,减少 负增长 , 增 
大 正 增长 ,以 提高 更 大 利润 。 

进行 多 方面 分 析 的 大 型 决策 支持 系统 将 可 以 发 挥 更 大 的 辅助 决策 效果 。 


5.3.2 统计 业 数 据 仓库 系统 


1. 统计 业 数 据 仓库 解决 方案 


统计 信息 是 科学 决策 和 宏观 管理 的 重要 基础 ,是 国民 经 济 核算 的 中 心 ,是 了 解 国情 国 
力 、 指 导 国 民 经 济 和 社会 发 展 的 信息 主体 。 统 计 部 门 作 为 国家 法 定 的 专职 信息 职能 部 门 , 担 
负 着 对 国民 经 济 和 社会 发 展 情况 进行 统计 调查 、 统 计 分 析 、 提 供 统计 资料 和 统计 咨询 意见 、 
实行 统计 监督 的 神圣 职责 。 

中 国 的 统计 事业 近年 来 得 到 了 长 足 的 发 展 ,统计 服务 水 平 也 有 了 显著 的 提高 ,人 们 对 统 
计 的 认识 也 进一步 加 强 。 但 同时 ,中 国 的 统计 工作 也 面临 进一步 的 改革 。 一 方面 ,社会 主义 
市 场 经 济 的 迅速 发 展 ,经 济 体制 与 经 济 增长 方式 的 逐步 转变 ,对 统计 工作 提出 了 更 新 更 高 的 
要 求 ; 另 一 方面 ,计算 机 和 通信 技术 的 迅速 发 展 带 来 了 全 球 信 息 化 革命 ,新 的 信息 技术 已 经 
并 正在 引起 统计 设计 、 数 据 处 理 、 信 息 管 理 与 服务 技术 的 重大 变革 。 

目前 ,国外 统计 行业 成 功 的 做 法 之 一 是 采用 先进 的 成熟 的 数据 仓库 技术 。 数 据 仓 库 是 
信息 技术 领域 的 新 概念 ,是 近年 来 迅速 发 展 起 来 的 一 种 信息 存储 及 管理 技术 。 它 存储 大 量 
的 、 决 策 分 析 所 必需 的 ,历史 的 ,分散 的 各 种 数据 ,经 过 处 理 将 这 些 资料 和 数据 转换 成 集中 统 
一 、 随 时 可 用 的 信息 。 它 能 方便 地 提供 统计 业务 人 员 和 各 级 领导 进行 随机 查询 和 任意 的 分 
析 处 理 ; 它 具 有 在 任何 时 间 、 任 何 业 务 、 回 答 任何 问题 的 能 力 ; 利 用 数据 仓库 前 端的 数据 挖掘 
工具 和 人 工 智 能 技术 ,统计 业务 人 员 还 可 以 建立 各 种 统计 调查 、 统 计 分 析 和 统计 预测 模型 ， 
以 分 析 国 民 经 济 、 工 农业 产值 、 人 口 等 领域 的 现状 及 发 展 变化 趋势 和 方向 。 

利用 数据 仓库 技术 能 够 快速 实现 传统 的 统计 报表 、 统 计 图 形 功 能 ;更 重要 的 是 ,利用 数 
据 仓 库 的 数据 挖掘 技术 可 以 使 统计 分 析 研 究 , 无 论 从 广度 上 还 是 深度 上 都 有 很 大 拓展 ,真正 
做 到 使 其 在 统计 预测 和 决策 支持 管理 中 发 挥 重 要 作用 。 

面 对 日 新 月 异 的 信息 技术 ,统计 业 面临 以 下 三 方面 的 需求 。 

(1) 数据 的 集中 存储 与 管理 

统计 行业 掌握 着 大 量 的 .各 历史 年 度 的 原始 调查 资料 , 受 历史 和 技术 (数据 库存 储 处 理 
能 力 的 限制 ) 等 因素 的 制约 ,这 些 资 料 大 都 还 保留 在 纸 介 质 、 脱 机 的 磁带 和 软盘 上 。 由 于 缺 
乏 大 型 数据 库 的 集中 存储 和 统一 管理 , 随 着 年 代 的 增加 ,这 些 资料 的 保存 和 安全 受到 严峻 的 
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考验 ;同时 ,这 些 宝贵 的 原始 资料 不 能 为 统计 业务 人 员 随 机 查询 和 充分 共享 ,不 能 进行 有 效 
的 统计 分 析 、 预 测评 估 和 使 用 ;难以 快速 地 为 管理 决策 提供 科学 依据 。 

(2) 查询 方式 和 分 析 手 段 的 更 新 

随 着 统计 数据 处 理 方式 由 逐 级 汇总 到 计算 机 超级 汇总 的 转变 ,统计 报表 和 统计 分 析 需 
要 从 大 量 各 种 各 样 的 原始 材料 中 汇总 整理 各 种 不 同 需 求 .反映 不 同 侧面 的 综合 分 析 数 据 , 传 
统 的 处 理 手段 主要 通过 编写 程序 来 实现 ,这 样 做 的 模式 是 固定 的 , 且 维 护 工作 量 大 ,开发 周 
期 长 。 为 解决 这 种 现状 就 需要 一 种 技术 或 一 种 前 端 查询 分 析 工 具 , 统 计 业 务 人 员 可 以 根据 
任意 条 件 、 任 意 模 式 进行 任意 组 合 ,生成 查询 结果 ,同时 利用 该 工具 能 进行 分 析 处 理 , 能 够 方 
便 地 组 成 各 种 多 维 报表 和 统计 图 形 ,如 条 形 图 、 饼 图 .曲线 图 .多维 立方 图 等 。 另 外 ,针对 一 
些 深 层次 的 研究 需要 ,还 应 提供 一 些 统计 分 析 智 能 软件 和 智能 算法 ,以 预测 未 来 经 济 发 展 模 
式 和 走势 。 

(3) 与 Web 技术 的 有 机 结合 

数据 仓库 技术 与 Web 技术 结合 起 来 是 采用 目前 流行 的 三 层 应 用 体系 结构 对 系统 进行 
的 应 用 开发 。 所 谓 三 层 结构 ,是 指 后 台 是 数据 仓库 ,前台 是 Web 服务 器 ,客户 端 是 浏览 器 的 
应 用 模式 。 利 用 这 种 技术 ,可 以 做 到 网 上 动态 信息 发 布 .网 上 随机 查询 和 网 上 联机 分 析 处 理 
等 功能 ,最 终 的 目标 是 实现 统计 业务 人 员 的 日 常 工作 完全 在 Web 上 实现 。 

针对 以 上 需求 ,信息 领域 新 技术 的 应 用 特别 是 数据 仓库 技术 的 应 用 是 必然 趋势 。 


2. 某 市 统计 局 企业 微观 数据 仓库 系统 


实现 某 市 统计 局 企业 微观 数据 仓库 是 把 掌握 的 不 同 专业 ,不 同时 期 分散 的 企业 微观 数 
据 信息 ,按照 多 个 主题 集中 存储 和 管理 在 数据 仓库 中 ,灵活 地 、 非 常 方 便 地 实现 固定 的 和 随 
机 动态 的 数据 查询 处 理 、 综 合 分 析 和 统计 报表 。 根 据 统计 信息 自动 化 总 体 规划 要 求 , 这 些 查 
询 ,分 析 和 报表 功能 以 及 今后 统计 人 员 的 日 常 业 务 处 理工 作 都 需 在 Web 上 进行 。 

在 实现 数据 仓库 之 前 , 某 市 统计 局 已 开发 出 企业 微观 数据 库 系 统 , 受 当时 技术 条 件 的 限 
制 , 该 系统 的 设计 思路 是 按 工业 、 建 筑 业 、 运 输 邮 电 业 和 批发 零售 贸易 、 餐 饮 业 等 不 同 专业 分 
别 建 模 , 每 个 专业 都 对 应 一 套数 据 存 储 表 和 管理 字典 ,共性 数据 依照 专业 被 分 割 , 存 储 ,这 样 
做 虽然 数据 管理 条 理 清楚 ,安全 性 能 好 ,查询 方式 易于 接受 ,但 存在 的 问题 是 查询 方式 不 够 
灵活 ,不同 专业 的 指标 横向 比较 困难 ,难以 实现 产 、 供 、 销 等 企业 生产 各 个 阶段 数据 的 一 条 龙 
分 析 研 究 。 同 时 受 软件 条 件 限 制 ,无 法 实现 Web 方式 查询 且 速 度 较 慢 。 数 据 仓 库 是 面向 主 
题 建 模 ,在 进行 设计 的 时 候 , 将 企业 微观 数据 仓库 设计 成 以 下 主题 。 

(1) 企业 基本 情况 : 各 年 度 、 各 专业 统计 调查 单位 基本 情况 名 录 的 主要 内 容 及 全 部 标 
识 性 内 容 。 

(2) 企业 财务 状况 : 各 年 度 、 各 专业 企业 的 资产 ,经 营 投 入 、 产 出 效益 等 财务 经 营 状 况 。 

(3) 企业 劳动 状况 : 各 年 度 、 各 专业 企业 的 就 业 人 数 及 工资 收入 情况 。 

(4) 企业 消耗 状况 : 各 年 度 、 各 专业 企业 生产 所 需 的 原材料 及 能 源 消耗 情况 ,包括 价值 
量 和 实物 量 消耗 情况 。 

(5) 企业 生产 状况 : 各 年 度 、 各 专业 企业 的 主 营 生产 情况 。 由 于 不 同 专 业 的 生产 方式 
不 同 ,又 下 设 若 干 子 方面 及 工业 产品 产 、 销 、 存 情况 ,建筑 业 生 产 完成 情况 ,公路 ,水 运 、 港 口 
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企业 生产 完成 情况 ,商业 、 餐 饮 业 销售 经 营 情况 等 。 

这 样 建 模 以 后 ,不 同年 度 、 不 同 专业 的 同类 数据 被 集中 进行 存储 ,如 此 一 来 ,指标 无 论 是 
横向 比较 还 是 纵向 比较 都 非常 容易 ,并且 整个 系统 只 需要 维护 一 套数 据 字 典 即 可 。 

数据 建 模 是 数据 仓库 设计 中 非常 重要 的 一 个 环节 ,包括 逻辑 建 模 和 物理 建 模 。 在 企业 
微观 数据 仓库 中 是 利用 ERWIN 专业 工具 来 建立 模型 ,并 形成 相应 的 数据 库 结构 。 企 业 微 
观 数 据 仓 库 的 源 数据 是 历年 存储 到 微机 上 的 数据 ,数据 的 格式 ,存储 方 式 不 尽 相 同 , 在 加 载 
到 数据 仓库 之 前 ,这 些 数据 必须 经 过 净化 筛选 ,加工 整理 以 及 数据 集成 。 利 用 NCR 提供 的 
FastLoad 和 其 他 工具 ,能 方便 地 将 经 过 处 理 的 数据 加 载 到 NCR 数据 仓库 里 。 目 前 企业 微 
观 数据 仓库 已 存储 2 年 各 4 个 专业 的 历史 数据 ,其 他 年 度 的 数据 正在 整理 当中 。 

应 用 开发 的 模式 是 基于 目前 流行 的 三 层 结构 , 即 : 后 台 是 数据 仓库 ,前 台 是 Web 服务 
器 ,客户 端 是 浏览 器 。Brio Enterprise 商业 智能 工具 提供 了 很 好 的 基于 Web 浏览 器 的 查 
询 .联机 分 析 及 报表 功能 ,并 且 具 有 极 高 的 安全 性 和 严格 的 权限 访问 等 级 。 企 业 微观 数据 仓 
库 系统 的 前 端 应 用 都 是 基于 Web 方式 开发 的 ,具有 网 上 随机 查询 、 网 上 多 维 分 析 、 网 上 数据 
钻 取 ` 网 上 图 形 分 析 . 网 上 表格 旋转 透视 ,网 上 多 维 报表 等 功能 ,并 且 操 作 方 式 都 是 拖拉 方 
式 ,今后 统计 业务 人 员 的 月 报 、 年 报 等 数据 处 理 都 可 以 在 网 上 进行 。 这 样 ,数据 仓库 的 好 处 、 
效益 和 威力 发 挥 得 淋漓 尽 致 。 


5.3.3 沃尔玛 数据 仓库 系统 


美国 的 沃尔玛 (Wal-Mart) 是 世界 上 最 大 的 零售 商 ,2002 年 4 月 ,该 公司 跃 居 《 财 富 》500 
强 企 业 排 行 第 一 。 在 全 球 拥 有 4000 多 家 分 店 和 连锁 店 。Wal-Mart 建立 了 基于 NCR Tera- 
data 数据 仓库 的 决策 支持 系统 , 它 是 世界 上 第 二 大 数据 仓库 系统 ,总 容量 达到 170TB 以 上 。 

沃尔玛 成 功 的 重要 因素 是 与 其 充分 地 利用 信息 技术 分 不 开 的 。 也 可 以 说 ,对 信息 技术 
的 成 功 运用 造就 了 沃尔玛 。 强 大 的 数据 仓库 系统 将 世界 4000 多 家 分 店 的 每 一 笔 业务 数据 
汇总 到 一 起 ,让 决策 者 能 够 在 很 短 的 时 间 里 获得 准确 和 及 时 的 信息 ,并 作出 正确 和 有 效 的 经 
营 决 策 。 而 沃尔玛 的 员工 也 可 以 随时 访问 数据 仓库 ,以 获得 所 需 的 信息 ,而 这 并 不 会 影响 数 
据 仓 库 的 正常 运转 。 关 于 这 一 点 ,沃尔玛 的 创始 人 萨 姆 ， 沃 尔 顿 在 他 的 自传 《Made in 
America: My Story) 一 书 是 这 样 描述 的 :“ 你 知道 ,我 总 是 喜欢 尽快 得 到 那些 数据 ,我 们 越 
快 得 到 那些 信息 ,我 们 就 能 越 快 据 此 采取 行动 ,这 个 系统 已 经 成 为 我 们 的 一 个 重要 工具 ”。 
沃尔玛 的 数据 仓库 始 建 于 20 世纪 80 年 代 。 自 1980 年 以 来 ,NCR 一 直 在 帮助 沃尔玛 经 营 
世界 上 最 大 的 数据 仓库 系统 。1988 年 沃尔玛 数据 仓库 容量 为 12GB,1989 年 升级 为 24GB， 
以 后 逐年 增长 ,1996 年 其 数据 量 达 7. 5TB,1997 年 为 了 圣诞 节 的 市 场 预测 和 分 析 ,沃尔玛 
将 数据 仓库 容量 扩展 到 24TB。 而 到 了 信息 技术 飞速 发 展 的 今天 ,沃尔玛 的 数据 仓库 已 经 
惊人 地 达到 了 超过 170TB。 利 用 数据 仓库 ,沃尔玛 对 商品 进行 市 场 类 组 分 析 (Marketing 
Basket Analysis) , 即 分 析 哪 些 商品 ,顾客 最 有 和 希望 一 起 购买 。 沃 尔 玛 数据 仓库 里 集中 了 各 
个 商店 一 年 多 详细 的 原始 交易 数据 。 在 这 些 原 始 交易 数据 的 基础 上 ,沃尔玛 利用 自动 数据 
挖掘 工具 (模式 识别 软件 ) 对 这 些 数据 进行 分 析 和 挖掘 。 一 个 意外 的 发 现 就 是 : 跟 尿布 一 起 
购买 最 多 的 商品 竟 是 啤酒 ! 按 常规 思维 ,尿布 与 啤酒 风 马 牛 不 相 及 , 若 不 是 借助 于 数据 仓库 
系统 ,商家 决 不 可 能 发 现 隐藏 在 背后 的 事实 : 原来 美国 的 太太 们 常 叮嘱 她 们 的 丈夫 下 班 后 

， 116 。 


为 小 孩 买 尿布 ,而 丈夫 们 在 买 尿布 后 又 随手 带 回 了 两 瓶 啤酒 。 既 然 尿布 与 啤酒 一 起 购买 的 
会 最 多 ,沃尔玛 就 在 它 的 一 个 个 商店 里 将 它们 并 排 摆 放 在 一 起 ,结果 是 尿布 与 啤酒 的 销量 
双双 增长 。 由 于 这 个 故事 的 传奇 和 出 人 意料 ,所 以 一 直 被 业界 和 商界 所 传诵。 

这 个 故事 仅仅 是 沃尔玛 借助 数据 仓库 受益 的 一 连 串 成 功 故 事 的 一 个 花絮 而 已 。 如 今 ， 
沃尔玛 利用 NCR 的 Teradata 对 超过 7. 5TB 的 数据 进行 存储 ,这 些 数 据 主 要 包括 各 个 商店 
前 端 设备 (POS 扫描 仪 ) 采 集 来 的 原始 销售 数据 和 各 个 商店 的 库存 数据 。Teradata 数据 库 
里 存 有 196 亿 条 记录 ,每 天 要 处 理 并 更 新 2 亿 条 记录 ,要 对 来 自 6000 多 个 用 户 的 48 000 条 
查询 语句 进行 处 理 。 销 售 数据 .库存 数据 每 天 夜间 从 4000 多 个 商店 自动 采集 过 来 ,并 通过 
卫星 线路 传 到 总 部 的 数据 仓库 里 。 沃 尔 玛 数据 仓库 里 最 大 的 一 张 表格 (table) 容 量 已 超过 
300GB、 存 有 50 亿 条 记录 ,可 容纳 65 个 星期 4000 多 个 商店 的 销售 数据 ,而 每 个 商店 有 5 一 8 
万 个 商品 品种 。 利 用 数据 仓库 ,沃尔玛 在 商品 分 组 布局 .降低 库存 成 本 、 了 解 销售 全 局 、 进 行 
市 场 分 析 和 趋势 分 析 等 方面 进行 决策 支持 分 析 , 具 体 表现 为 以 下 几 点 。 


1. 商品 分 组 布局 


作为 微观 销售 的 一 种 策略 ,合理 的 商品 布局 能 节省 顾客 的 购买 时 间 , 能 刺激 顾客 的 购买 
欲望 。 沃 尔 玛 利用 前 面 提 到 的 市 场 类 组 分 析 (MBA), 分 析 顾 客 的 购买 习惯 ,掌握 不 同 商品 
一 起 购买 的 概率 ,甚至 考虑 购买 者 在 商店 里 所 穿行 的 路 线 、 购 买 时 间 和 地 点 ,从 而 确定 商品 
的 最 佳 布局 。 


2. 降低 库存 成 本 


加 快 资金 周转 ,降低 库存 成 本 是 所 有 零售 商 面临 的 一 个 重要 问题 。 沃 尔 玛 通 过 数据 仓 
库 系统 ,将 成 千 上 万 种 商品 的 销售 数据 和 库存 数据 集中 起 来 ,通过 数据 分 析 , 以 决定 对 各 个 
商店 各 色 货 物 进 行 增 减 ,确保 正确 的 库存 。 数 十 年 来 ,沃尔玛 的 经 营 哲 学 是 “代销 ”供应 商 的 
商品 ,也 就 是 说 ,在 顾客 付款 之 前 ,供应 商 是 不 会 拿 到 它 的 货款 的 。NCR 的 Teradata 数据 
仓库 使 他 们 的 工作 更 具 成 效 。 数 据 仓库 强大 的 决策 支持 系统 每 周 要 处 理 25 000 个 复杂 查 
询 ,其 中 很 大 一 部 分 来 自 供应 商 ,库存 信息 和 商品 销售 预测 信息 通过 电子 数据 交换 (EDI) 直 
接送 到 供应 商 那里 。 数 据 仓库 系统 不 仅 使 沃尔玛 省 去 了 商业 中 介 , 还 把 定期 补充 库存 的 担 
子 转嫁 到 供应 商 身 上 。1996 年 ,沃尔玛 开始 通过 Web 站 点 销售 商品 ,商品 都 是 从 供应 商 处 
直接 订货 。Web 站 点 销售 相当 成 功 ,在 其 投入 运营 的 第 一 个 周末 就 卖 出 了 一 百 多 万 件 
商品 。 


3. 了解 销售 全 局 


各 个 商店 在 传送 数据 之 前 , 先 对 数据 进行 如 下 分 组 : 商品 种 类 、 销 售 数量 .商店 地 点 、 价 
格 和 日 期 等 。 通 过 这 些 分 类 信息 ,沃尔玛 能 对 每 个 商店 的 情况 有 个 细致 的 了 解 。 在 最 后 一 
家 商店 关门 后 一 个 半 小 时 ,沃尔玛 已 确切 地 知道 当天 的 运营 和 财政 情况 。 凭 借 对 瞬间 信息 
的 随时 捕捉 ,沃尔玛 对 销售 的 每 一 点 增长 ,库存 货物 百分比 的 每 点 上 升 和 通过 前 价 而 提高 的 
每 一 份 销售 额 都 了 如 指 掌 。 


有 帮 


4. 市 场 分 析 


沃尔玛 利用 数据 挖掘 工具 和 统计 模型 对 数据 仓库 的 数据 仔细 研究 ,以 分 析 顾客 的 购买 
习惯 ,广告 成 功率 和 其 他 战略 性 的 信息 。 沃 尔 玛 每 个 星期 六 的 高 级 会 议 上 要 对 世界 范围 内 
销售 量 最 大 的 15 种 商品 进行 分 析 , 然 后 确保 在 准确 的 时 间 、 合 适 的 地 点 满足 有 所 需要 的 
库存 。 


5. 趋势 分 析 


沃尔玛 利用 数据 仓库 对 商品 品种 和 库存 的 趋势 进行 分 析 , 以 选 定 需要 补充 的 商品 ,研究 
顾客 购买 趋势 ,分 析 季 节 性 购买 模式 ,确定 降价 商品 ,并 对 其 数量 和 运作 作出 反应 。 为 了 能 
够 预测 出 季节 性 销售 量 ,要 检索 数据 仓库 拥有 100 000 种 商品 一 年 多 来 的 销售 数据 ,并 在 此 
基础 上 作 分 析 和 知识 挖掘 。 

萨 姆 。 沃 尔 顿 在 他 的 自传 中 写 道 :“ 我 能 项 刻 之 间 把 信息 提取 出 来 ,而 且 是 所 有 的 数 
据 。 我 能 拿 出 我 想 要 的 任何 东西 ,并 确切 地 讲 出 我 们 卖 了 多 少 .” 这 感觉 就 像 在 信息 的 海洋 
里 ,“ 轻 舟 已 过 万 重山 ”。 他 还 写 到 ;“ 我 想 我 们 总 是 知道 那些 信息 赋予 你 一 定 的 力量 ,而 我 
们 能 在 计算 机 内 取出 这 些 数据 的 程度 会 使 我 们 具有 强大 的 竞争 优势 .” 

沃尔玛 神奇 的 增长 很 大 部 分 可 以 归功 于 成 功 地 建立 了 基于 NCR Teradata 的 数据 仓库 
系统 。 数 据 仓 库 改变 了 沃尔玛 ,而 沃尔玛 改变 了 零售 业 。 在 它 的 影响 下 ,世界 顶尖 零售 企 
业 : Sears、Kmart、JCPenney、No. 1GermanRetailer 日 本 西武 、 三 越 等 先后 建立 了 数据 仓库 
系统 。 沃 尔 玛 的 成 功 给 人 以 启示 : 惟有 站 在 信息 巨人 的 肩头 ,才能 掌握 无 限 , 创 造 辉煌 。 


习 题 


. 数据 仓库 管理 与 数据 库 管 理 有 什么 本 质 不 同 ? 
. 数据 仓库 的 数据 为 什么 会 增长 ? 

. 数据 仓库 管理 主要 包括 哪些 部 分 ? 

. 信息 使 用 者 和 探索 者 的 任务 有 什么 不 同 ? 
. 信息 使 用 者 的 性 能 需求 是 什么 ? 

. 有 哪些 方法 来 满足 信息 使 用 者 的 性 能 需求 ? 
. 为 什么 增加 数据 元 余 能 提高 查询 速度 ? 

. 什么 是 预 聚集 数据 ? 

. 什么 是 合并 查询 ? 

. 探索 者 所 做 的 工作 有 哪些 ? 

.如何 满足 探索 者 的 性 能 需求 ? 

. 什么 是 休 眼 数据 ?如 何 产生 ? 

. 删除 休眠 数据 有 哪些 方法 ? 

. 什么 是 脏 数据 ? 如 何 产生 ? 

. 清理 脏 数据 有 哪些 方法 ? 
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监视 休眠 数据 分 哪 三 级 ”处 理 对 策 是 什么 ? 

如 何 处 理 不 同类 型 的 脏 数据 ? 

在 数据 仓库 环境 中 元 数据 如 何 发 挥 作用 ? 

哪 种 元 数据 价值 最 大 ? 

元 数据 是 不 是 知识 ? 

元 数据 的 存储 方法 是 什么 ? 

元 数据 交换 标准 (MDIS) 的 作用 是 什么 ? 

举例 说 明 企业 需要 的 战略 信息 。 

简 述 数据 仓库 查询 服务 内 容 。 

简 述 数据 仓库 报表 服务 内 容 。 

说 明 如 何 利用 数据 仓库 找 出 出 现 问题 的 原因 。 

说 明 如 何 利用 数据 仓库 进行 预测 。 

数据 仓库 如 何 实现 实时 决策 ? 

数据 仓库 如 何 实现 自动 决策 ? 

对 5.2.2 小 节 中 原因 分 析 的 实例 ,设计 和 画 出 决策 支持 系统 结构 图 。 
在 国内 某 市 统计 局 数据 仓库 中 选 出 两 个 主题 画 出 星 型 模型 图 。 
利用 沃尔玛 数据 仓库 系统 说 明 数 据 仓库 的 价值 。 
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弟 6 曹 数据 泌 汤 原 晨 


6.1 知识 发 现 过 程 


6.1.1 知识 发 现 过 程 定义 


知识 发 现 被 认为 是 从 数据 中 发 现 有 用 知识 的 整个 过 程 。 数 据 挖掘 被 认为 是 KDD 过 程 
中 的 一 个 特定 步骤 , 它 用 专门 算法 从 数据 中 抽取 模式 (pattern) 。 

KDD 过 程 定义 为 (Fayyad、Piatetsky-Shapiror 和 Smyth,1996 年 ): KDD 是 从 数据 集 
中 识别 出 有 效 的 ,新颖 的 、 潜 在 有 用 的 ,以 及 最 终 可 理解 的 模式 的 高 级 处 理 过 程 。 

其 中 ,数据 集 : 事实 F( 数 据 库 元 组 ) 的 集合 。 模 式 : 用 语言 L 表示 的 表达 式 EE, 它 所 描 
述 的 数据 是 集合 下 的 一 个 子 集 Fe, 它 比 枚 举 所 有 下 中 元 素 更 简单 , 称 已 为 模式 。 有 效 、 新 
颖 ,潜在 有 用 、 可 被 人 理解 : 表示 发 现 的 模式 有 一 定 的 可 信 度 ,应 该 是 新 的 ,将 来 有 实用 价 
值 ,能 被 用 户 所 理解 。 

KDD 过 程 如 图 6. 1 所 示 。 


数 | 选择 目标 | 预 处 理 预 处 理 1 He 全 模式 评价 | 知 
图 | “| 数据 | 数据 人 识 


数据 准备 sem | 结果 评价 


图 6.1 KDD 过 程 图 


KDD 过 程 可 以 概括 为 3 部 分 : 数据 准备 (data preparation) ,数据 挖掘 及 结果 的 解释 和 


评估 (interpretation &. evaluation)。 
1. 数据 准备 


数据 准备 又 可 分 为 3 个 子 步骤 : 数据 选择 (data selection) .数据 预 处 理 (data prepro- 
cessing) 和 数据 转换 (data transformation ) 。 

数据 选择 的 目的 是 确定 发 现任 务 的 操作 对 象 , 即 目标 数据 (target data) 是 根据 用 户 的 
需要 从 原始 数据 库 中 选取 的 一 组 数据 。 数 据 预 处 理 一 般 包 括 消除 噪声 ,推导 计算 缺 值 数据 、 
消除 重复 记录 等 。 数 据 转 换 的 主要 目的 是 完成 数据 类 型 转换 (如 把 连续 值 数据 转换 为 离散 
型 数据 ,以 便于 符号 归纳 .或 是 把 离散 型 数据 转换 为 连续 值 型 数据 ,以 便于 神经 网 络 计 算 )， 
尽量 消减 数据 维 数 或 降 维 (dimension reduction), 即 从 初始 属性 中 找 出 真正 有 用 的 属性 ,以 
减少 数据 挖掘 时 要 考虑 的 属性 个 数 。 
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2. 数据 挖掘 


数据 挖掘 阶段 首先 要 确定 挖掘 的 任务 或 目的 ,如 数据 分 类 、 聚 类 、 关 联 规则 发 现 或 序列 
模式 发 现 等 。 确 定 了 挖掘 任务 后 ,就 要 决定 使 用 什么 样 的 挖掘 算法 。 选 择 实现 算法 有 两 个 
考虑 因素 : 一 是 不 同 的 数据 有 不 同 的 特点 ,因此 需要 用 与 之 相关 的 算法 来 挖掘 ;二 是 用 户 或 
实际 运行 系统 的 要 求 ,有 的 用 户 可 能 希望 获取 描述 型 的 (descriptive)、 容 易 理 解 的 知识 ( 采 
用 规则 表示 的 挖掘 方法 显然 要 好 于 神经 网 络 之 类 的 方法 ) ,而 有 的 用 户 只 是 希望 获取 预测 准 
确 度 尽 可 能 高 的 预测 型 (predictive) 知识 。 选 择 了 挖掘 算法 后 ,就 可 以 实施 数据 挖掘 操作 ， 
获取 有 用 的 模式 。 


3. 结果 的 解释 和 评估 


数据 挖掘 阶段 发 现 出 来 的 模式 ,经 过 评估 ,可 能 存在 元 余 或 无 关 的 模式 ,这 时 需要 将 其 
剔除 ;也 有 可 能 模式 不 满足 用 户 要 求 , 这 时 则 需要 回 退 到 发 现 过 程 的 前 面 阶段 ,如 重新 选取 
数据 ,采用 新 的 数据 变换 方法 、 设 定 新 的 参数 值 , 甚 至 换 一 种 挖掘 算法 ,等 等 。 另 外 ,KDD 由 
于 最 终 是 面向 人 类 用 户 的 ,因此 可 能 要 对 发 现 的 模式 进行 可 视 化 ,或 者 把 结果 转换 为 用 户 易 
懂 的 男 一 种 表示 ,如 把 分 类 决策 树 转 换 为 f…then… 规 则 。 

数据 挖掘 仅仅 是 整个 过 程 中 的 一 个 步 又。 数据 挖掘 质量 的 好 坏 有 两 个 影响 要 素 : 一 是 
所 采用 的 数据 挖掘 技术 的 有 效 性 ,二 是 用 于 挖掘 的 数据 的 质量 和 数量 (数据 量 的 大 小 )。 如 
果 选 择 了 错误 的 数据 或 不 适当 的 属性 ,或 对 数据 进行 了 不 适当 的 转换 , 则 挖掘 的 结果 是 不 会 
好 的 。 

整个 挖掘 过 程 是 一 个 不 断 反 馈 的 过 程 。 比 如 ,用 户 在 挖掘 途中 发 现 选 择 的 数据 不 太 好 ， 
或 使 用 的 挖掘 技术 产生 不 了 期 望 的 结果 ,这 时 ,用 户 需 要 重复 先前 的 过 程 ,其 至 从 头 重新 
开始 。 

可 视 化 技术 在 数据 挖掘 的 各 个 阶段 都 扮演 着 重要 的 作用 。 特 别 是 在 数据 准备 阶段 ,用 
户 可 能 要 使 用 散 点 图 .直方 图 等 统计 可 视 化 技术 来 显示 有 关 数 据 , 以 期 对 数据 有 一 个 初步 的 
了 解 ,从 而 为 更 好 地 选取 数据 打下 基础 。 在 挖掘 阶段 ,用 户 则 要 使 用 与 领域 问题 有 关 的 可 视 
化 工具 。 在 表示 结果 阶段 , 则 可 能 要 用 到 可 视 化 技术 ,以 使 得 发 现 的 知识 更 易于 理解 。 


6.1.2 数据 挖掘 对 象 


数据 挖掘 的 对 象 主要 是 关系 数据 库 和 数据 仓库 ,这 是 典型 的 结构 化 数据 。 随 着 技术 的 
发 展 , 数 据 挖掘 对 象 逐步 扩大 到 半 结 构 化 或 非 结 构 化 数据 ,这 主要 是 文本 数据 ,图 像 与 视频 
数据 以 及 Web 数据 等 。 


1. 关系 数据 库 


目前 ,建立 的 数据 库 都 是 关系 数据 库 ,数据 仓库 的 数据 存储 仍然 是 关系 数据 库 。 数 据 挖 
掘 方法 也 主要 是 研究 数据 库 中 属性 之 间 的 关系 ,挖掘 出 多 个 属性 取 值 之 间 的 规则 。 由 于 关 
系数 据 库 的 特点 ,促使 了 数据 挖掘 方法 的 改善 。 数 据 库 的 特点 如 下 。 
(1) 数据 动态 性 
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数据 的 动态 变化 是 数据 库 的 一 个 主要 特点 。 由 于 数据 的 存 取 和 修改 ,使 数据 的 内 容 经 
常 发 生变 化 ,这 就 要 求 数据 挖掘 方法 能 适应 这 种 变化 。 渐 增 式 数据 挖掘 方法 就 是 针对 数据 
变化 后 ,挖掘 的 规则 知识 能 满足 变化 后 的 数据 库 内 容 。 

(2) 数据 不 完全 性 

这 主要 反映 在 数据 库 中 记录 的 域 值 丢 失 或 不 存在 ( 空 值 ) 。 这 种 不 完全 数据 给 数据 挖掘 
带 来 了 困难 。 为 此 ,必须 对 数据 进行 预 处 理 ,填补 该 数据 域 的 可 能 值 。 

(3) 数据 噪声 

由 于 数据 录入 等 原因 ,造成 错误 的 数据 , 即 数据 噪声 。 挖 掘 含 噪声 的 数据 会 影响 获取 模 
式 的 准确 性 ,并 增加 了 数据 挖掘 的 困难 度 。 

在 数据 挖掘 中 要 考虑 噪声 的 影响 ,利用 概率 方法 排除 这 些 噪 声 。 

(4) 数据 宛 余 性 

这 表现 在 同一 信息 在 多 处 重复 出 现 。 函 数 依赖 是 一 个 通常 的 宛 余 形式 。 宛 余 信 息 可 能 
造成 错误 的 数据 挖掘 ,至 少 有 些 挖掘 的 知识 是 用 户 不 感 兴趣 的 。 为 避免 这 种 情况 的 发 生 , 数 
据 挖掘 时 ,需要 知道 数据 库 中 有 哪些 固有 的 依赖 关系 。 

(5) 数据 稀 跑 性 

这 表现 在 多 维 数据 空间 中 存在 大 量 稀 疏 数据 , 稀 政 数 据 会 使 数据 挖掘 丢失 有 用 的 模式 。 

(6) 海量 数据 

数据 仓库 中 数据 在 不 断 增长 ,已 出 现 很 多 海量 数据 仓库 。 数 据 挖掘 方法 需要 逐步 适应 
这 种 海量 数据 和 迅速 增长 的 数据 挖掘 ,如 建立 有 效 的 索引 机 制 和 快速 查询 方法 等 。 


2. 文本 


文本 是 以 文字 串 形 式 表 示 的 数据 文件 。 文 本 分 析 包 括 : 关键 词 或 特征 提取 ;相似 检索 ; 
文本 聚 类 和 文本 分 类 等 。 

(1) 关键 词 或 特征 提取 

一 篇 文本 中 ,标题 是 该 文本 的 高 度 概 括 。 标 题 中 的 关键 词 是 标题 的 核心 内 容 。 关 键 词 
的 提取 对 于 掌握 该 文本 的 内 容 至 关 重 要 。 

文本 中 的 特征 ,如 人 名 、 地 名 、 组 织 名 等 是 某 些 文本 中 的 主体 信息 ,特征 提取 对 掌握 该 文 
本 的 内 容 很 重要 。 

(2) 相似 检索 

文本 中 的 关键 词 的 相似 检索 是 了 解 文本 内 容 的 一 种 重要 方法 。 例 如 "专家 系统 ”与 “人 
工 智能 ”两 个 关键 词 是 有 一 定 联系 的 。 研 究 专家 系统 的 文本 一 定 属 于 人 工 智能 的 研究 领域 。 

(3) 文本 聚 类 

对 于 文本 标题 中 关键 词 (主题 字 ) 的 相似 匹配 是 对 文本 聚 类 的 一 种 简单 方法 。 定 义 关键 
词 的 相似 度 将 便利 文本 的 简单 聚 类 ,使 类 中 的 文本 均 满 足 关 键 词 的 相似 度 , 使 类 间 的 文本 的 
关键 词 一 定 超过 相似 度 。 

(4) 文本 分 类 

将 文本 分 类 到 各 文本 类 中 ,一 般 需要 采用 一 个 算法 。 这 些 算 法 包括 分 类 器 算法 .近邻 算 
法 等 。 这 需要 按 文本 中 的 关键 词 或 特征 的 相似 度 来 区 分 。 
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3. 图 像 与 视频 数据 


图 像 与 视频 数据 是 典型 多 媒体 数据 。 数 据 以 点 阵 信息 及 帧 形式 存储 ,数据 量 很 大 。 图 
像 与 视频 的 数据 挖掘 包括 图 像 与 视频 特征 提取 、 基 于 内 容 的 相似 检索 、 视 频 镜头 的 编辑 与 组 


和 
织 等 。 


(1) 图 像 与 视频 特征 提取 

图 像 与 视频 数据 特征 有 颜色 ,纹理 和 形状 等 。 这 些 特 征 提取 用 于 基于 内 容 的 相似 检索 。 
海水 蓝 色 、 海 滩 黄 色 、 房 屋 的 形状 及 颜色 ,需要 从 大 量 图 像 和 视频 数据 中 提取 。 

(2) 基于 内 容 的 相似 检索 

根据 图 像 .视频 特征 的 分 布 .比例 等 进行 基于 内 容 的 相似 检索 ,可 以 将 图 像 和 视频 数据 
进行 聚 类 以 及 分 类 ,也 能 完成 对 新 图 像 或 视频 的 识别 ,如 对 遥感 图 像 或 视频 的 识别 。 这 种 应 
用 非常 广泛 ,例如 森林 火灾 的 发 现 与 报警 ,河流 水 灾 的 预报 等 。 

(3) 视频 镜头 的 编辑 与 组 织 

镜头 代表 一 段 连续 动作 (视频 数据 流 ) 。 典 型 的 镜头 编辑 ,如 足球 赛 的 射门 . 某 段 新 闻 节 
目 等 ,需要 在 宛 长 的 视频 数据 流 中 进行 自动 裁 取 。 

经 过 编辑 的 镜头 , 按 某 种 需要 重新 组 织 ,将 形成 特定 需求 的 新 视频 节目 ,如 足球 射门 集 
锦 、 某 个 新 闻 事件 的 连续 报道 等 。 


4. Web 数据 


随 着 Internet 网 的 发 展 和 普及 ,网 站 数目 的 迅速 增长 以 及 入 网 人 员 的 急剧 增多 ,使 网 络 
数据 量 呈 指数 增长 。Web 数据 挖掘 已 成 为 新 课题 。Web 数据 挖掘 的 特点 如 下 : 

(1) 异 构 数据 集成 和 挖掘 

Web 上 每 一 个 站 点 是 一 个 数据 源 ,各 数据 源 都 是 异 构 的 ,形成 了 一 个 巨大 的 异 构 数 据 
库 环境 。 将 这 些 站 点 的 异 构 数 据 进 行 集成 ,给 用 户 提 供 一 个 统一 的 视图 ,才能 在 Web 上 进 
行 数据 挖掘。 

(2) 半 结 构 化 数据 模型 抽取 

Web 上 的 数据 非常 复杂 ,没有 特定 的 模型 描述 。 虽 然 每 个 站 点 上 的 数据 是 结构 化 的 ， 
但 各 自 的 设计 对 整个 网 络 是 一 个 非 完 全 结构 化 的 数据 , 称 为 半 结 构 化 数据 。 

对 半 结 构 化 数据 模型 的 查询 和 集成 ,需要 寻找 一 种 半 结 构 化 模型 抽取 技术 来 自动 抽取 
各 站 点 的 数据 。 

XML 是 一 种 半 结 构 化 的 数据 模型 ,容易 实现 Web 中 信息 共享 与 交换 。 

采用 “实时 建议 ”技术 ,能 够 根据 用 户 以 往 的 浏览 行为 来 预测 该 用 户 以 后 的 浏览 行为 ,从 
而 为 用 户 提 供 个 性 化 的 浏览 建议 。 

总 之 , Web 数据 挖掘 正在 逐步 形成 热点 。 


6.1.3 数据 挖掘 任务 
数据 挖掘 任务 有 6 项 : 关联 分 析 、 时 序 模 式 、 聚 类 、 分 类 、 偏 差 检测 .预测 。 
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1. 关联 分 析 


关联 分 析 是 从 数据 库 中 发 现 知识 的 一 类 重要 方法 。 若 两 个 或 多 个 数据 项 的 取 值 之 间 重 
复出 现 且 概率 很 高 时 ,就 存在 某 种 关联 ,可 以 建立 起 这 些 数据 项 的 关联 规则 。 

例如 , 买 面包 的 顾客 有 90% 的 人 还 买 牛奶 ,这 是 一 条 关联 规则 。 若 商店 中 将 面包 和 和 牛 
奶 放 在 一 起 销售 ,将 会 提高 销量 。 

在 大 型 数据 库 中 ,这 种 关联 规则 是 很 多 的 ,需要 进行 筛选 ,一 般 用 “支持 度 " 和 “可 信和 度 ” 
两 个 阔 值 来 淘汰 那些 无 用 的 关联 规则 。 

“支持 度 ” 表 示 该 规则 所 代表 的 事例 (元 组 ) 占 全 部 事例 (元 组 ) 的 百分比 ,如 买 面包 又 买 
牛奶 的 顾客 占 全 部 顾客 的 百分比 。 

“可 信 度 ”表示 该 规则 所 代表 事例 占 满足 前 提 条 件 事 例 的 百分比 。 如 买 面包 又 买 牛奶 的 
顾客 占 买 面包 顾客 中 的 90% , 称 可 信和 度 为 90%。 


2. 时 序 模式 


通过 时 间 序 列 搜索 出 重复 发 生 概率 较 高 的 模式 。 这 里 强调 时 间 序 列 的 影响 。 例 如 ,在 
所 有 购买 了 激光 打印 机 的 人 中 ,半年 后 80% 的 人 再 购买 新 硒鼓 ,20% 的 人 用 旧 硒 鼓 装 碳 粉 ; 
在 所 有 购买 了 彩色 电视 机 的 人 中 ,有 60% 的 人 再 购买 VCD 产品 。 

在 时 序 模式 中 ,需要 找 出 在 某 个 最 小 时 间 内 出 现 比率 一 直 高 于 某 一 最 小 百分比 ( 阅 值 ) 
的 规则 。 这 些 规 则 会 随 着 形式 的 变化 作 适当 的 调整 。 

时 序 模式 中 ,一 个 有 重要 影响 的 方法 是 “相似 时 序 ”。 用 “相似 时 序 ” 的 方法 ,要 按时 间 顺 
序 查 看 时 间 事 件数 据 库 , 从 中 找 出 另 一 个 或 多 个 相似 的 时 序 事件 。 例 如 在 零售 市 场 上 ,找到 
男 一 个 有 相似 销售 的 部 门 , 在 股市 中 找到 有 相似 波动 的 股票 。 


3. 聚 类 


数据 库 中 的 数据 可 以 划分 为 一 系列 有 意义 的 子 集 , 即 类 。 简 单 地 说 ,在 设 有 类 的 数据 
中 , 按 * 距 离 概 念 聚集 成 若干 类 。 在 同一 类 别 中 ,个 体 之 间 的 距离 较 小 ,而 不 同类 别 上 的 个 
体 之 间 的 距离 偏 大 。 聚 类 增强 了 人 们 对 客观 现实 的 认识 , 即 通过 聚 类 建立 宏观 概念 。 例 如 
将 鸡 、 鸭 、 鹅 等 都 聚 类 为 家 禽 。 

聚 类 方法 包括 统计 分 析 方 法 、 机 咒 学 习 方 法 、 神 经 网 络 方法 等 。 

在 统计 分 析 方法 中 , 聚 类 分 析 是 基于 距离 的 聚 类 ,如 欧 氏 距离 , 海 明 距 离 等 。 这 种 聚 类 
分 析 方 法 是 一 种 基于 全 局 比较 的 聚 类 ,需要 考察 所 有 的 个 体 才 能 决定 类 的 划分 。 

在 机 器 学 习 方法 中 , 聚 类 是 无 导师 的 学 习 。 在 这 里 距离 是 根据 概念 的 描述 来 确定 的 , 故 
聚 类 也 称 概 念 聚 类 , 当 聚 类 对 象 动态 增加 时 ,概念 聚 类 则 称 概念 形成 。 

在 神经 网 络 中 , 自 组 织 神经 网 络 方法 用 于 聚 类 。 如 ART 模型 Kohonen 模型 等 ,这 是 
一 种 无 监督 学 习 方法 。 当 给 定 距 离 阔 值 后 ,各 样本 按 阔 值 进 行 聚 类 。 


4. 分 类 


分 类 是 数据 挖掘 中 应 用 最 多 的 任务 。 分 类 是 在 聚 类 的 基础 上 对 已 确定 的 类 找 出 该 类 别 
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的 概念 描述 ,代表 了 这 类 数据 的 整体 信息 , 既 该 类 的 内 涵 描 述 ,一 般 用 规则 或 决策 树 模式 表 
示 。 该 模式 能 把 数据 库 中 的 元 组 映射 到 给 定 类 别 中 的 某 一 个 。 

一 个 类 的 内 涵 描 述 分 为 特征 描述 和 辨别 性 描述 。 

特征 描述 是 对 类 中 对 象 的 共同 特征 的 描述 。 辨 别 性 描述 是 对 两 个 或 多 个 类 之 间 的 区 别 
的 描述 。 特 征 描 述 允 许 不 同类 中 具有 共同 特征 ,而 辨别 性 描述 对 不 同类 不 能 有 相同 特征 。 
辨别 性 描述 用 的 更 多 。 

分 类 是 利用 训练 样本 集 (已 知 数据 库 元 组 和 类 别 所 组 成 的 样本 ) 通 过 有 关 算 法 而 求 得 。 

建立 分 类 决策 树 的 典型 方法 有 ID3、C4. 5、IBLE 等 。 建 立 分 类 规则 的 方法 ,典型 的 有 
AQ 方 法 、 粗 集 方法 、 遗 传 分 类 器 等 。 

目前 ,分 类 方法 的 研究 成 果 较 多 ,判别 方法 的 好 坏 可 从 3 个 方面 进行 : 预测 准确 度 (对 
非 样 本 数据 的 判别 准确 度 ); 计算 复杂 度 ( 方 法 实现 时 对 时 间 和 空间 的 复杂 度 ); 模式 的 简 
洁 度 ( 在 同样 效果 情况 下 和 希望 决策 树 小 或 规则 少 ) 。 

在 数据 库 中 往往 存在 噪声 数据 (错误 数据 ) ,缺损 值 . 疏 密 不 均匀 等 问题 ,它们 对 分 类 算 
法 获取 的 知识 将 产生 坏 的 影响 。 


5. 偏差 检测 


数据 库 中 的 数据 存在 很 多 异常 情况 ,从 数据 分 析 中 发 现 这 些 异 常情 况 也 是 很 重要 的 ,以 
引起 人 们 对 它 更 多 的 注意 。 

偏差 包括 很 多 有 用 的 知识 ,如 : 

(1) 分 类 中 的 反常 实例 ; 

(2) 模式 的 例外 ; 

(3) 观察 结果 对 模型 预测 的 偏差 ; 

(4) 量 值 随时 间 的 变化 。 

偏差 检测 的 基本 方法 是 寻找 观察 结果 与 参照 之 间 的 差别 。 观 察 常常 是 某 一 个 域 的 值 或 
多 个 域 值 的 汇总 。 参 照 是 给 定 模型 的 预测 、 外 界 提供 的 标准 或 男 一 个 观察 。 


6. 预测 


预测 是 利用 历史 数据 找 出 变化 规律 ,建立 模型 ,并 用 此 模型 来 预测 未 来 数据 的 种 类 、 特 
征 等 。 
典型 的 方法 是 回归 分 析 , 即 利用 大 量 的 历史 数据 ,以 时 间 为 变量 ,建立 线性 或 非 线 性 回 
归 方 程 。 预 测 时 ,只 要 输入 任意 的 时 间 值 ,通过 回归 方程 就 可 求 出 该 时 间 的 预测 值 。 

近年 来 ,发 展 起 来 的 神经 网 络 方法 ,如 BP 模型 ,实现 了 非 线性 样本 的 学 习 , 能 进行 非 线 
性 函数 的 判别 。 

分 类 也 能 进行 预测 ,但 一 般 用 于 离散 数值 。 回 归 预 测 用 于 连续 数值 。 神 经 网 络 方法 预 
测 既 可 用 于 连续 数值 ,也 可 以 用 于 离散 数值 。 


6.1.4 数据 挖掘 分 类 


数据 挖掘 涉及 多 个 学 科 ,主要 包括 数据 库 、 统 计 学 和 机 器 学 习 三 大 主要 技术 。 
有 


数据 库 技术 经 过 20 世纪 80 年 代 的 大 发 展 , 除 关 系数 据 库 外 ,又 陆续 出 现 面向 对 象 数据 
库 、 多 媒体 数据 库 、 分 布 式 数据 库 以 及 Web 数据 库 等 。 数 据 库 的 应 用 由 一 般 查 询 到 模糊 查 
询 和 智能 查询 ,数据 库 计 算 已 趋向 并 行 计 算 。 从 以 上 各 类 数据 库 中 挖掘 知识 正在 兴起 并 已 
得 到 迅速 发 展 。 

统计 学 是 门 古老 的 学 科 , 现 已 逐渐 走向 社会 。 它 已 成 为 社会 调查 .了 解 民意 以 及 制定 决 
策 的 重要 手段 。 

机 器 学 习 是 人 工 智能 的 重要 分 支 。 它 是 在 专家 系统 获取 知识 出 现 瓶 颈 后 发 展 起 来 的 。 
机 器 学 习 的 大 部 分 方法 和 技术 已 成 为 数据 挖掘 方法 和 技术 。 

数据 挖掘 可 按 数据 库 类 型 .挖掘 对 象 .挖掘 任务 .挖掘 方法 和 技术 ,以 及 应 用 等 几 方面 进 
行 分 类 。 


1 按 数据 库 类 型 分 类 


数据 挖掘 主要 是 在 关系 数据 库 中 挖掘 知识 。 随 数据 库 类 型 的 不 断 增加 ,逐步 出 现 了 不 
同 数据 库 的 数据 挖掘 。 现 有 关系 数据 挖掘 ,模糊 数据 挖掘 ,历史 数据 挖掘 .空间 数据 挖掘 等 
多 种 不 同 数据 库 的 数据 挖掘 类 型 。 


2. 按 数 据 挖掘 对 象 分 类 


数据 挖掘 除 对 数据 库 这 个 主要 对 象 进行 挖掘 外 ,还 有 文本 数据 挖掘 .多 媒体 数据 挖掘 、 
Web 数据 挖掘 。 由 于 对 象 不 同 ,挖掘 的 方法 相差 很 大 ,文本 、 多 媒体 `Web 数据 均 是 非 结 构 
化 数据 ,挖掘 的 难度 将 很 大 。 

目前 Web 数据 挖掘 已 逐步 引起 人 们 的 关注 。 


3. 按 数 据 挖掘 任务 分 类 


数据 挖掘 的 任务 有 关联 分 析 、` 时 序 模式 、. 聚 类 、 分 类 、 偏 差 检测 、 预 测 等 。 按 任务 分 类 有 ， 
关联 规则 挖掘、 序列 模式 挖掘 、 聚 类 数据 挖掘 、 分 类 数据 挖掘 \ 偏 差分 析 挖 掘 和 预测 数据 挖掘 
等 类 型 。 

各 类 数据 挖掘 由 于 任务 不 同 , 将 会 采用 不 同 的 数据 挖掘 方法 和 技术 。 


4. 按 数 据 挖掘 方法 和 技术 分 类 


数据 挖掘 方法 和 技术 较 多 ,在 6. 2 节 中 详细 讨论 。 在 此 对 其 分 类 进行 说 明 。 

(1) 归纳 学 习 类 

该 类 又 分 为 基于 信息 论 方法 挖掘 类 和 基于 集合 论 方法 挖掘 类 。 基 于 信息 论 方法 是 在 数 
据 库 中 寻找 信息 量 大 的 属性 来 建立 属性 的 决策 树 。 基 于 集合 论 方法 是 对 数据 库 中 各 属性 的 
元 组 集合 之 间 关 系 ( 上 、 下 近似 关系 ,覆盖 或 排斥 关系 ,包含 关系 等 ) 来 建立 属性 间 的 规则 。 
各 类 中 又 包括 多 种 方法 ,主要 用 于 分 类 问题 。 

(2) 仿生 物 技术 类 

该 类 又 分 为 神经 网 络 方法 类 和 遗传 算法 类 。 神 经 网 络 方法 是 在 模拟 人 脑 神 经 元 而 建立 
的 MP 数学 模型 和 Hebb 学 习 规则 基础 上 ,提出 了 一 系列 的 算法 模型 ,用 于 识别 .预测 、 联 
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想 、 优 化 . 聚 类 等 实际 问题 。 遗 传 算法 是 模拟 生物 遗传 过 程 , 对 选择 .交叉 、 变 异 过 程 建立 了 
数学 算 子 。 主 要 用 于 问题 的 优化 和 规则 的 生成 。 

(3) 公式 发 现 类 

在 科学 实验 与 工程 数据 库 中 ,用 人 工 智能 方法 寻找 和 发 现 连续 属性 (变量 ) 之 间 的 关系 ， 
建立 变量 之 间 的 公式 ,已 引起 人 们 的 关注 ,该 类 中 有 多 种 数据 挖掘 方法 ,如 BACON 和 
FDD 等 。 

(4) 统计 分 析 类 

统计 分 析 是 门 独立 学 科 , 由 于 能 对 数据 库 中 数据 求 出 各 种 不 同 的 统计 信息 和 知识 , 故 也 
构成 了 数据 挖掘 中 一 大 类 方法 。 

(5) 模糊 数学 类 

模糊 数学 是 反映 人 们 思维 的 一 种 方式 。 将 模糊 数学 应 用 于 数据 挖掘 各 项 任务 中 ,形成 
了 模糊 数据 挖掘 类 ,如 模糊 聚 类 模糊 分 类 模糊 关联 规则 等 。 

(6) 可 视 化 技术 类 

可 视 化 技术 是 一 种 图 形 显示 技术 。 对 数据 的 分 布 规律 进行 可 视 化 显示 或 对 数据 挖掘 过 
程 进行 可 视 化 显示 ,会 明显 提高 人 们 对 数据 挖掘 的 理解 和 挖掘 效果 。 该 技术 已 形成 了 可 视 
化 数据 挖掘 类 的 多 种 方法 。 

本 书 的 内 容 将 按 数据 挖掘 的 方法 和 技术 分 类 的 各 种 方法 进行 详细 和 深入 的 介绍 ,以 便 
读者 学 习 和 使 用 这 些 方法 和 技术 ,对 实际 问题 完成 数据 挖掘 任务 。 


6.1.5 不 完全 数据 处 理 


对 不 完全 数据 (incomplete data) 的 处 理 是 知识 发 现 过 程 中 数据 预 处 理 的 主要 内 容 。 在 
现实 领域 中 ,人 们 所 拥有 的 数据 常常 是 不 完全 的 ,在 这 种 情况 下 ,知识 发 现 应 该 具有 处 理 这 
种 不 完全 数据 并 提供 相应 合理 的 近似 结果 的 能 力 。 

现实 世界 的 数据 库 ( 例 如 商业 数据 库 和 医院 数据 库 ) 中 的 数据 很 少 是 完全 的 : 丢失 的 数 
据 、 观 察 不 到 的 数据 、 隐 藏 的 数据 、 录 入 过 程 中 发 生 错 误 的 数据 等 在 现实 中 是 经 常 发 生 的 。 
在 知识 发 现 领域 中 对 不 完全 数据 的 研究 比较 多 的 在 于 丢失 的 数据 。 

例如 ,在 对 个 人 调查 时 ,被 调查 的 对 象 可 能 会 拒绝 提供 他 的 收入 情况 ,在 一 项 实验 过 程 
中 , 某 些 结果 可 能 会 因为 某 些 故障 而 丢失 ,这些 情况 都 会 产生 数据 丢失 。 

关于 两 个 变量 X 和 Y 的 采样 。 其 中 X 是 独立 变量 ,总 有 观测 值 ; Y 是 响应 变量 ,可 能 
涉及 丢失 值 。 以 Y==? 代表 丢失 值 ,以 (X=i,Y==?) 代 表 不 完全 的 记录 。 由 这 种 简单 的 两 
个 变量 模型 ,可 以 推广 到 更 一 般 的 情况 , 即 一 个 不 含 丢 失 值 的 变量 的 集合 总 是 影响 着 可 能 具 
有 丢失 值 的 另 一 个 变量 。 这 种 情况 在 统计 学 、 机 器 学 习 、 数 据 挖掘 和 知识 发 现 领 域 里 是 相当 
常见 的 。 

丢失 数据 模式 分 类 取决 于 了 Y=? 的 概率 是 否 依赖 于 Y 与 X 的 状态 。 如 果 这 一 概率 P 
不 依赖 于 X 但 依赖 于 Y, 则 认为 数据 是 随机 丢失 的 (missing at random) ;如 果 Y==? 的 概率 
既 不 依赖 于 Y 也 不 依赖 于 X 的 状态 , 则 认为 数据 是 完全 随机 丢失 的 (missing completely at 
random) 。 对 于 数据 随机 丢失 和 数据 完全 随机 丢失 两 种 情况 ,如 果 数 据 挖掘 方法 都 不 受 影 
响 ,那么 丢失 数据 的 模式 是 可 以 忽略 的 。 但 当 Y=? 的 概率 既 依赖 于 Y 又 依赖 于 X 时 , 则 
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丢失 数据 的 模式 就 是 不 可 忽略 的 。 
处 理 丢失 数据 的 方法 如 下 。 


1. 基于 已 知 数据 的 方法 


忽略 掉 丢 失 的 数据 而 只 对 得 到 的 数据 进行 挖掘 和 分 析 。 这 种 方法 最 为 简单 ,在 数据 量 
不 太 大 且 数 据 是 完全 随机 丢失 的 情况 下 可 以 得 到 令 人 满意 的 结果 。 但 是 如 果 数 据 不 是 随机 
丢失 的 情况 下 ,这 种 方法 就 不 很 有 效 ,会 导致 严重 的 偏差 ,这 时 可 以 采用 删除 有 丢失 数据 的 
属性 方法 。 

2. 基于 猜测 的 方法 

首先 猜测 被 丢失 的 值 ,从 而 得 到 完全 的 数据 ,然后 再 运用 标准 的 统计 学 和 机 器 学 习 的 方 
法 进行 数据 挖掘 和 分 析 。 具 体 方法 如 下 。 

(1) 均值 替换 法 : 用 含有 丢失 值 的 属性 的 已 知 值 的 平均 值 来 代替 丢失 的 值 。 

(2) 概率 统计 法 : 先 求 丢失 值 的 所 在 属性 的 各 取 值 的 出 现 概率 P(w), 即 表示 属性 4 的 
取 值 v; 的 出 现 概率 。 丢 失 值 用 出 现 最 大 概率 的 值 v 来 代替 。 

(3) 回归 猜测 : 采用 回归 分 析 的 方法 ,用 未 丢失 的 数据 建立 回归 方程 ,用 所 依赖 的 变量 
X 求 出 该 丢失 值 了 。 

3. 基于 模型 的 方法 

对 于 丢失 值 构造 出 一 个 适当 的 模型 ( 非 回 归 模 型 ) ,然后 再 在 此 模型 下 采用 恰当 的 方法 
猜测 丢失 的 值 , 这 是 一 种 较为 灵活 的 方法 。 

4. 基于 贝 叶 斯 理论 的 方法 

利用 无 教师 指导 的 贝 叶 斯 分 类 技术 和 贝 叶 斯 网 络 处 理 丢 失 的 数据 。 

5, 基于 决策 树 的 方法 


利用 决策 树 和 规则 归纳 的 技术 来 处 理 丢失 的 数据 。 
以 上 主要 讨论 了 对 不 完全 数据 的 处 理 。 另 外 ,对 未 知 的 数据 ,隐藏 的 数据 .错误 的 数据 
等 以 及 这 些 数据 和 已 知 数据 的 关系 ,目前 研究 较 少 ,还 需要 深入 研究 。 


6.1.6 数据 库 的 数据 浓缩 


数据 浓缩 就 是 在 满足 某 种 等 价 条 件 下 ,将 复杂 的 难以 理解 的 数据 库 变换 成 简洁 的 、 容 易 
理解 的 高 度 浓缩 的 数据 库 。 
数据 浓缩 包括 两 方面 : 属性 约 简 和 元 组 (记录 ) 压 缩 。 


1. 属性 约 简 


属性 约 简 一 般 用 于 分 类 问题 。 属 性 约 简 的 原则 是 保持 数据 库 中 分 类 关系 不 变 。 目 前 ， 
属性 约 简 一 般 采 用 粗糙 集 (rough set) 方 法 ,也 可 以 采用 信息 论 方法 。 
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在 数据 库 (S) 的 分 类 问题 中 ,属性 分 为 条 件 属 性 (C) 和 决策 属性 (D)。 属 性 约 简 是 在 条 
件 属性 中 删除 那些 不 影响 对 决策 属性 进行 分 类 的 多 余 的 属性 。 经 过 研究 对 条 件 属 性 一 般 分 
为 可 省 略 属性 和 不 可 省 略 属性 。 不 可 省 略 属性 实质 上 是 对 决策 属性 进行 分 类 的 核心 属性 
(corse(S))。 而 可 省 略 属性 (choice(S)) 并 不 是 全 部 都 可 省 略 的 属性 ,需要 在 可 省 略 属性 中 
挑选 出 部 分 属性 与 核心 属性 组 合成 等 价 原 数据 库 的 分 类 效果 。 

例如 ,有 如 下 汽车 数据 库 (CTR), 有 9 个 条 件 属性 和 1 个 决策 属性 (里 程 ) ,如 表 6. 1 
所 示 。 


表 6.1 汽车 数据 库 (CTR) 


序 类 型 汽 氏 ”涡轮 式 “燃料 ” 排 气量 压缩 率 ”功率 换 挡 重量 。 里 程 
号 a b C d e f g h i D 
1 小 型 6 Y 1 型 中 高 高 自动 中 中 
2 小 型 6 N 1 型 中 中 高 手动 中 中 
3 小 型 6 N 1 型 中 高 高 手动 中 中 
4 小 型 4 芝 1 型 中 高 高 手动 轻 高 
5 小 型 6 N 1 型 中 中 中 手动 中 中 
6 小 型 6 N 2 型 中 中 中 自动 重 低 
7 小 型 6 N 1 型 中 中 高 手动 重 低 
8 微型 4 N 2 型 小 高 低 手动 轻 高 
9 小 型 4 N 2 型 小 高 低 手动 中 中 
10 小 型 4 N 2 型 小 高 中 自动 中 中 
11 微型 4 N 1 型 小 高 低 手动 轻 高 
12 微型 4 N 1 型 中 中 中 手动 中 高 
13 小 型 4 N 2 型 中 中 中 手动 中 中 
14 微型 4 至 1 型 小 高 高 手动 中 高 
15 微型 4 N 2 型 小 中 低 手动 中 高 
16 小 型 4 至 1 型 中 中 高 手动 中 中 
17 小 型 6 N 1 型 中 中 高 自动 中 中 
18 小 型 4 N 1 型 中 中 高 自动 中 中 
19 微型 4 N 1 型 小 高 中 手动 中 高 
20 小 型 4 N 1 型 小 高 中 手动 中 高 
21 小 型 4 N 2 型 小 高 中 手动 中 中 
经 过 分 析 ,可 以 得 到 


Corse(S) 二 {燃料 ,重量 } ,Choice(S) 二 {类 型 涡轮 式 , 汽 饶 、 排 气量 .压缩 率 功率 、 换 挡 } 
保持 数据 库 (S) 分 类 关系 不 变 的 7 个 属性 约 简 如 下 : 
(1) {类 型 ,燃料 , 排 气 量 , 重 量 )4 个 属性 ; 
(2) {燃料 , 排 气量 ,压缩 率 ,重量 }4 个 属性 ; 
(3) { 类 型 , 汽 代 ,燃料 ,压缩 率 ,重量 }5 个 属性 ; 
(4) {类 型 ,燃料 ,压缩 率 ,功率 ,重量 )5 个 属性 ; 
(5) { 类 型 ,汽缸 ,燃料 ,功率 ,重量 }5 个 属性 ; 
(6) { 汽 币 ,燃料 ,压缩 率 , 功 率 , 重 量 }5 个 属性 ; 
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(7) { 类 型 , 汽 缸 ,涡轮 式 , 燃 料 , 换 挡 , 重 量 /6 个 属性 。 

以 上 7 种 属性 约 简 都 等 价 于 原 数 据 库 的 9 个 属性 的 决策 分 类 。 其 中 最 小 属性 约 简 是 
(1) 和 (2) 用 4 个 属性 就 可 以 代替 数据 库 中 9 个 属性 。 利 用 最 小 属性 约 简 (2) ,经 过 进一步 处 
理 , 可 以 得 到 原 数据 库 的 等 价 数据 库 , 如 表 6. 2 所 示 。 


表 6.2 约 简 后 的 数据 库 


项 目 燃料 排 气 量 压缩 率 重量 里 程 
1” * x x 重 低 
2， x x x 轻 高 
37 * 小 中 x 高 
4 * 中 x 中 中 
5? 1 型 小 高 * 高 
6” 2 型 * 高 中 中 


表 6.2 中 的 * 表示 可 不 考虑 该 属性 的 取 值 。 
2. 元 组 (记录 ) 压 缩 


元 组 (记录 ) 压 缩 实质 上 是 对 数据 库 的 元 组 (记录 ) 进 行 合并 、 归 并 和 聚 类 等 。 

(1) 相同 元 组 (记录 ) 的 合并 

在 进行 属性 约 简 后 ,会 出 现 很 多 相同 的 元 组 。 这样, 可 以 合并 这 些 相同 的 元 组 。 

(2) 利用 概念 树 进 行 归并 

概念 树 是 一 种 对 概念 的 层次 划分 的 树 。 概 念 树 与 数据 库 中 特定 的 属性 有 关 , 它 将 各 个 
层次 的 概念 按 一 般 到 特殊 的 顺序 排列 。 在 概念 树 中 最 一 般 的 概念 作为 树 的 根 结 点 ,最 特殊 
的 概念 作为 叶 结 点 , 它 对 应 数据 库 具 体 属性 值 。 例 如 ,反映 某 数据 库 中 ”籍贯 ” 这 个 属性 的 概 
念 树 如 图 6. 2 所 示 。 


中 国 


广东 省 湖南 省 江西 省 。 其 他 省 市 


广州 深圳 东莞 佛山 长 沙 岳阳 株洲 …… 
图 6.2 “籍贯 "概念 树 


利用 概念 树 进行 向 上 归纳 ,可 以 实现 数据 库 元 组 归并 。 例 如 ,对 数据 库 中 “籍贯 ”为 广 
州 深圳、 东莞 ,佛山 等 城市 的 所 有 学 生 的 记录 都 归并 为 广东 省 , 即 “籍贯 = 广东 省 ”的 新 记录 
中 ,这 样 就 完成 了 广东 省 内 学 生 的 多 个 元 组 (记录 ) 都 归并 到 一 个 元 组 (记录 ) 中 。 实 现 了 元 
组 (记录 ) 的 压缩 。 对 学 生 数 据 库 这 种 元 组 压缩 便于 学 校对 各 省 学 生 的 生活 习惯 有 概括 的 了 
解 ,便于 学 校对 学 生 的 管理 。 
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(3) 对 元 组 的 聚 类 

为 了 对 数据 库 中 所 有 元 组 (记录 ) 有 一 个 概括 的 了 解 ,在 元 组 之 间 设 定 一 种 距离 方法 (如 
海 明 距离 ) ,对 数据 库 中 所 有 元 组 进行 聚 类 。 这 种 聚 类 能 完成 对 同一 类 的 多 个 元 组 进行 聚 
集 ,形成 一 个 类 元 组 。 数 据 库 按 类 元 组 重新 组 织 ,就 完成 了 原 数据 库 元 组 高 度 压 缩 的 新 数 
据 库 。 


6.2 数据 挖掘 方法 和 技术 


数据 挖掘 方法 是 由 人 工 智能 ` 机 器 学 习 的 方法 发 展 而 来 ,结合 传统 的 统计 分 析 方 法 、 模 
糊 数学 方法 以 及 科学 计算 可 视 化 技术 ,以 数据 库 为 研究 对 象 ,形成 了 数据 挖掘 方法 和 技术 。 
数据 挖掘 方法 和 技术 可 以 分 为 6 大 类 。 


6.2.1 归纳 学 习 的 信息 论 方法 


归纳 学 习 方法 是 目前 重点 研究 的 方向 ,研究 成 果 较 多 。 从 采用 的 技术 上 看 ,分 为 两 大 
类 : 信息 论 方法 (这 也 是 常 说 的 决策 树 方法 ) 和 集合 论 方法 。 每 类 方法 又 包含 多 个 具体 
方法 。 

信息 论 方法 是 利用 信息 论 的 原理 建立 决策 树 。 由 于 该 方法 最 后 获得 的 知识 表示 形式 是 
决策 树 , 故 一 般 文献 中 称 它 为 决策 树 方法 。 该 类 方法 的 实用 效果 好 ,影响 较 大 。 

信息 论 方法 中 较 有 特色 的 方法 有 : 


1， ID3 等 方法 (决策 树 方法 ) 


Quiulan 研制 的 ID3 方法 是 利用 信息 论 中 互信 息 (Quiulan 称 为 信息 增益 ) 寻 找 数据 库 
中 具有 最 大 信息 量 的 字段 ,建立 决策 树 的 一 个 结 点 ,再 根据 字段 的 不 同 取 值 建立 树 的 分 支 ， 
再 由 每 个 分 支 的 数据 子 集 重复 建树 的 下 层 结 点 和 分 支 的 过 程 ,这 样 就 建立 了 决策 树 。 这 种 
方法 对 数据 库 愈 大 效果 愈 好 。ID3 方法 在 国际 上 影响 很 大 。 继 ID3 方法 以 后 陆续 开发 了 
ID4、ID5 .C4. 5 等 方法 。 


2. IBLE 方法 (决策 规则 树 方法 ) 


钟鸣 等 人 研制 了 IBLE 方法 ,是 利用 信息 论 中 信道 容量 寻找 数据 库 中 信息 量 从 大 到 小 
的 多 个 字段 的 取 值 ,建立 决策 规则 树 的 一 个 结 点 ,根据 该 结 点 中 指定 字段 取 值 的 权 值 之 和 与 
两 个 阔 值 比较 ,建立 左 ,. 中 、 右 3 个 分 支 ,在 各 分 支 子 集中 重复 建树 结 点 和 分 支 的 过 程 ,就 建 
立 了 决策 规则 树 。IBLE 方法 比 ID3 方法 在 识别 率 上 提高 了 10%。 


6.2.2 归纳 学 习 的 集合 论 方法 


合 论 方法 是 开展 较 早 的 方法 。 近 年 来 ,由 于 粗糙 集 理论 的 发 展 使 集合 论 方法 得 到 了 
迅速 的 发 展 。 这 类 方法 中 包括 覆盖 正 例 排斥 反例 的 方法 (典型 的 方法 是 AQ 系列 方法 )、 概 
念 树 方法 和 粗糙 集 (rough set) 方 法 。 关 联 规则 挖掘 也 属于 集合 论 方法 。 


x 131 %* 


1. 粗糙 集 (rough set) 方 法 


在 数据 库 中 将 行 元 素 看 成 对 象 , 列 元 素 是 属性 (分 为 条 件 属 性 和 决策 属性 )。 等 价 关 系 
尽 定义 为 不 同 对 象 在 某 个 (或 几 个 ) 属 性 上 取 值 相同 ,这 些 满足 等 价 关 系 的 对 象 组 成 的 集合 
称 为 该 等 价 关 系 R 的 等 价 类 。 条 件 属 性 上 的 等 价 类 盛 与 决策 属性 上 的 等 价 类 了 之 间 有 3 
种 情况 : 中 下 近似 :Y 包含 EE; @@ 上 近似 : Y 和 的 交 非 空 ; 四 无关: Y 和 的 交 为 空 。 对 
下 近似 建立 确定 性 规则 ,对 上 近似 建立 不 确定 性 规则 ( 含 可 信和 度 ) ,无 关 情 况 不 存在 规则 。 


2. 关联 规则 挖掘 


关联 规则 挖掘 是 在 交易 事务 数据 库 中 挖掘 出 不 同 项 (商品 ) 集 的 关联 关系 , 即 发 现 哪些 
商品 频繁 地 被 顾客 同时 购买 。 

关联 规则 挖掘 是 在 事务 数据 库 D 中 寻找 那些 不 同 项 集 ( 如 含 A 和 B 两 个 商品 ) 同 时 出 
现 的 概率 ( 即 P(AB)) 大 于 最 小 支持 度 (min_sup) , 且 在 包含 一 个 项 集 ( 如 A) 的 所 有 事务 中 ， 
又 包含 另 一 个 项 集 ( 如 B) 的 条 件 概率 ( 即 P(B1A)) 大 于 最 小 可 信和 度 (min_conf) 时 , 则 存在 
关联 规则 ( 即 A 一 B)。 


3. 覆盖 正 例 排斥 反例 方法 


它 是 利用 覆盖 所 有 正 例 、 排 斥 所 有 反例 的 思想 来 寻找 规则 。 比 较 典 型 的 有 Michalski 
的 AQ11 方 法 \ 洪 家 荣 改进 的 AQ15 方法 以 及 洪 家 荣 的 AE5 方法 。 

AQ 系列 的 核心 算法 是 在 正 例 集中 任 选 一 个 种 子 ,到 反例 集中 逐个 比较 ,对 字段 取 值 构 
成 的 选择 子 相 容 则 使 去 , 相 斥 则 保留 。 按 此 思想 循环 所 有 正 例 种 子 , 将 得 到 正 例 集 的 规则 
(选择 子 的 合 取 式 ) 。 

AE 系列 方法 是 在 扩张 矩阵 中 寻找 覆盖 正 例 排斥 反例 的 字段 值 的 公共 路 (规则 ) 。 


4. 概念 树 方法 


数据 库 中 记录 的 属性 字段 按 归 类 方式 进行 合并 ,建立 起 来 的 层次 结构 称 为 概念 树 。 如 
对 ”城市 ?概念 树 的 最 下 层 是 具体 市 名 或 县 名 (如 长 沙 .南京 等 ) , 它 的 直接 上 层 是 省 名 (湖南 、 
江苏 等 ) ,省 名 的 直接 上 层 是 国家 行政 区 (华南 .华东 等 ), 再 上 层 是 国名 (中 国 、 日 本 等 ) 。 

利用 概念 树 提升 的 方法 可 以 大 大 浓缩 数据 库 中 的 记录 (元 组 )。 对 多 个 属性 字段 的 概念 
树 提升 ,将 得 到 高 度 概括 的 知识 基 表 ,再 将 它 转换 成 规则 。 


6.2.3 仿生 物 技术 的 神经 网 络 方法 


仿生 物 技 术 典 型 的 方法 是 神经 网 络 方法 和 遗传 算法 。 这 两 类 方法 已 经 形成 了 独立 的 研 
究 体 系 。 它 们 在 数据 挖掘 中 也 发 挥 了 巨大 的 作用 ,将 它们 归并 为 仿生 物 技 术 类 。 
神经 网 络 方法 是 模拟 了 人 脑 神经 元 结构 ,以 MP 模型 和 Hebb 学 习 规则 为 基础 , 建 
大 类 多 种 神经 网 络 模型 。 
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1. 前 馈 式 网 络 


它 以 感知 机 、BP 反 向 传播 模型 .函数 型 网 络 为 代表 。 此 类 网 络 可 用 于 预测 .模式 识别 等 
方面 。 


2. 反馈 式 网 络 
它 以 Hopfield 的 离散 模型 和 连续 模型 为 代表 ,分 别 用 于 联想 记忆 和 优化 计算 。 
3. 自 组 织 网 络 


它 以 ART 模型 .Kohonen 模型 为 代表 。 它 们 用 于 聚 类 。 
神经 网 络 的 知识 体现 在 网 络 连接 的 权 值 上 ,是 一 个 分 布 式 矩阵 结构 。 神 经 网 络 的 学 习 
体现 在 神经 网 络 权 值 的 逐步 计算 上 (包括 反复 迭代 或 者 是 累加 计算 ) 。 


6.2.4 仿生 物 技术 的 遗传 算法 
这 是 模拟 生物 进化 过 程 的 算法 。 它 由 3 个 基本 算 子 组 成 : 
1. 繁殖 (选择 ) 
从 一 个 旧 种 群 ( 父 代 ) 选 择 出 生命 力 强 的 个 体 产 生 新 种 群 (后 代 ) 的 过 程 。 
2. 交叉 (重组 ) 
选择 两 个 不 同 个 体 ( 染 色 体 ) 的 部 分 (基因 ) 进 行 交换 ,形成 两 个 新 个 体 。 
3， 变异 (突变 ) 


对 某 些 个 体 的 某 些 基因 进行 变异 (1 变 0,0 变 1) ,形成 新 个 体 。 

这 种 遗传 算法 起 到 产生 优良 后 代 的 作用 。 这 些 后 代 需 要 满足 适应 值 , 经 过 若干 代 的 遗 
传 ,将 得 到 满足 要 求 的 后 代 ( 问 题 的 解 )。 遗 传 算法 已 在 优化 计算 和 分 类 机 器 学 习 方 面 发 挥 
了 显著 的 效果 。 


6.2.5 数值 数据 的 公式 发 现 


在 工程 和 科学 数据 库 ( 由 实验 数据 组 成 ) 中 对 若干 数据 项 (变量 ) 进 行 一 定 的 数学 运算 ， 
求 得 相应 的 数学 公式 。 


1. 物理 定律 发 现 系 统 BACON 


BACON 发 现 系 统 完 成 了 物理 学 中 大 量 定律 的 重新 发 现 。 它 的 基本 思想 是 对 数据 项 进 
行 初等 数学 运算 (加 、 减 、 乘 \ 除 等 ) 形 成 组 合 数据 项 , 若 它 的 值 为 常数 项 ,就 得 到 了 组 合 数据 
项 等 于 常数 的 公式 ,该 系统 有 5 个 版 本 ,分 别 为 BACON. 1 一 BACON. 5。 


2. 经 验 公式 发 现 系 统 FDD 


作者 等 人 研制 了 FDD 发 现 系 统 。 基 本 思想 是 对 两 个 数据 项 交替 取 初 等 函数 后 与 男 一 
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数据 项 的 线性 组 合 若 为 直线 时 ,就 找到 了 数据 项 (变量 ) 的 初等 函数 的 线性 组 合 公 式 。 该 系 
统 所 发 现 的 公式 比 BACON 系统 发 现 的 公式 更 宽 些 ,该 系统 有 3 个 版 本 ,分 别 为 FDD. 1 一 
FDD, 35 


6.2.6 可 视 化 技术 


可 视 化 技术 是 一 种 图 形 显示 技术 。 例 如 ,把 数据 库 中 多 维 数据 变 成 多 种 图 形 , 这 对 于 揭 
示 数 据 中 内 在 本 质 以 及 分 布 规律 起 到 很 强 的 作用 。 对 数据 挖掘 过 程 可 视 化 ,并 进行 人 机 交 
互 可 提高 数据 挖掘 的 效果 。 

数据 可 视 化 是 创建 二 维 或 三 维 业 务 数据 集 的 图 表 , 使 得 用 户 用 于 理解 业务 数据 ,从 而 提 
升 知识 和 洞察 力 。 例 如 ,多 维 数据 的 多 维 结构 类 型 (MTS) 图 与 多 维 表格 是 对 多 维 数据 可 视 
化 的 显示 。 利 用 直方 图 (二 维 ) , 柱 形 图 (三 维 ) 、 饼 图 、 折 线 图 、 雷 达 图 、 散 点 图 等 能 更 形象 地 
表示 数据 之 间 对 比 与 变化 的 关系 。 

可 视 化 数据 挖掘 是 创建 可 视 化 的 数据 挖掘 模型 ,利用 这 些 模 型 发 现 业务 数据 集中 存在 
的 模式 ,从 而 辅助 决策 支持 及 预测 新 的 商机 。 

可 视 化 技术 的 基本 工作 为 : 


1. 提取 几何 图 元 


这 是 可 视 化 系统 的 主要 部 分 ,由 不 同类 型 的 数据 (点 ` 线 ) 构 造成 表面 或 体 素 模型 。 它 是 
构造 ,仿真 .分析 数据 分 布 模型 的 有 效 手 段 。 


2. 绘制 
这 是 利用 计算 机 图 形 学 中 的 成 果 ,进行 图 像 生 成 、 消 隐 、 光 照 效应 及 绘制 的 部 件 。 
3. 显示 和 演 放 


为 了 取得 有 效 的 显示 效果 ,这 一 部 件 将 提供 图 片 组 合 .文件 标准 着色 .旋转 、 放 大、 存储 
等 功能 。 

可 视 化 绘制 (render) 方 法 就 是 把 隐藏 于 大 容量 数据 集中 的 物理 信息 转化 为 有 组 织 结构 
表示 的 视觉 信号 集合 ,如 空间 几何 形状 .颜色 亮度 等 。 目 前 常用 的 可 视 化 绘制 方法 有 几何 
法 .彩色 法 、 多 媒体 法 和 光学 法 。 


6.3 数据 挖掘 的 知识 表示 
数据 挖掘 的 各 种 方法 获得 的 知识 表示 形式 主要 有 6 种 : 规则 决策 树 、 知 识 基 (浓缩 数 
据 )、 网 络 权 值 .公式 和 案例 。 
6.3.1 规则 知识 


规则 知识 由 前 提 条 件 和 结论 两 部 分 组 成 。 前 提 条 件 由 字段 项 (属性 ?的 取 值 的 合 取 ( 与 
和 A) 和 析 取 (或 V ) 组 合 而 成 ,结论 为 决策 字段 项 (属性 ?的 取 值 或 者 类 别 组 成 。 
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用 一 个 简单 例子 进行 说 明 , 如 两 类 人 数据 库 的 9 个 元 组 (记录 ) 如 表 6. 3 所 示 。 
表 6.3 两 类 人 数据 库 


类 别 身高 头发 眼睛 
加 矮 金色 蓝 色 
高 红色 蓝 色 
类 高 金色 蓝 色 
人 矮 金色 灰色 

高 金色 黑色 
第 矮 黑色 蓝 色 
高 黑色 蓝 色 
人 高 黑色 灰色 

矮 金色 黑色 


利用 上 面 介绍 的 数据 挖掘 方法 能 很 快 得 到 如 下 规则 知识 : 
IF( 发 色 = 金色 V 红色 ) 人 (眼睛 = 蓝 色 V 灰色 )THEN 第 一 类 人 
IF( 发 色 = 黑色 ) V (眼睛 = 黑色 )THEN 第 二 类 人 
即 : 凡是 具有 人 金色 或 红色 的 头发 ,并 且 同 时 具有 蓝 色 或 灰色 眼睛 的 人 属于 第 一 类 人 ; 凡 
是 具有 黑色 头发 或 黑色 眼睛 的 人 属于 第 二 类 人 。 


6.3.2 决策 树 知识 


数据 挖掘 的 信息 论 方法 所 获得 的 知识 一 般 表示 为 决策 树 。 
如 ID3 方法 的 决策 树 是 由 信息 量 最 大 的 


字段 (属性 ) 作 为 根 结 点 , 它 的 各 个 取 值 为 分 了 
十 和 9 元: 记忆 | 
支 ,对 各 个 分 支 所 划分 的 数据 元 组 (记录 ) 子 = 眼睛 第 二 类 人 
集 ,重复 建树 过 程 ,扩展 决策 树 ,最 后 得 到 相 SS 
同类 别 的 子 集 ,以 该 类 别 作为 叶 结 点 。 蓝 | 黑 
例如 ,上 例 的 两 类 人 数据 库 , 按 ID3 方法 - = 
得 到 的 决策 树 ,如 图 6. 3 所 示 。 J 第 类 人 | | 第 = 类 人 
图 6.3 决策 树 


6.3.3 知识 基 


在 知识 发 现 过 程 的 数据 准备 中 ,数据 转换 的 一 项 属性 约 简 工作 是 , 找 出 可 省 略 的 属性 。 
在 删除 不 必要 的 属性 后 ,对 数据 库 中 出 现 相 同 的 元 组 (记录 ) 进 行 合 并 。 这 样 ,通过 属性 约 简 
方法 能 压缩 数据 库 的 属性 和 相应 的 元 组 ,最 后 得 到 浓缩 数据 , 称 为 知识 基 。 它 是 原 数据 库 的 
精华 ,很 容易 转换 成 规则 知识 。 

例如 上 例 的 两 类 人 数据 库 , 通 过 属性 约 简 计算 可 以 得 出 身高 是 不 必要 的 属性 ,删除 它 
后 ,再 合并 相同 数据 元 组 ,得 到 浓缩 数据 如 表 6. 4 所 示 。 


表 6.4 知识 基 ( 浓 缩 数 据 ) 


类 别 头发 眼睛 
一 类 人 金色 蓝 色 
一 类 人 红色 蓝 色 
一 类 人 金色 灰色 
二 类 人 金色 黑色 
二 类 人 黑色 蓝 色 
二 类 人 黑色 灰色 


6.3.4 神经 网 络 的 权 值 
神经 网 络 方法 经 过 对 训练 样本 的 学 习 后 ,所 得 到 的 知识 是 网 络 连接 权 值 和 结 点 的 阔 值 。 
一 般 表示 为 矩阵 和 向 量 。 例 如 , 异 或 问题 的 网 络 权 值 和 阔 值 如 图 6.4 所 示 。 
输入 层 网 络 权 值 : 
wi rz [rl 1 
bs i 让 
隐 结 点 国 值 : 


0 0.5 
[, -ls] 
输出 层 网 络 权 值 : 
[T, ,TJ=[—1,1] 
输出 结 点 国 值 


$=0 


图 6.4 神经 网 络 结构 和 权 值 


6.3.5 公式 知识 
对 于 科学 和 工程 数据 库 ,一 般 存放 的 是 大 量 实 验 数据 (数值 )。 它 们 中 草 涵 着 一 定 的 规 
律 性 ,通过 公式 发 现 算法 ,可 以 找 出 各 种 变量 间 的 相互 关系 ,并 用 公式 表示 。 
例如 ,太阳 系 行星 运动 数据 中 包含 行星 运动 周期 (旋转 一 周 所 需 时 间 , 如 天 ), 以 及 它 与 
太阳 的 距离 (围绕 太阳 旋转 的 椭圆 轨道 的 长 半 轴 ,如 百 万 公里 ) ,数据 如 表 6.5 所 示 。 
表 6.5 太阳 系 行星 数据 


类 别 水 星 金星 地 球 火星 木星 过 星 
周期 p/ 天 88 225 365 687 4343.5 10 767.5 
距离 d/100 万 km 58 108 149 228 778 1430 


通过 物理 定律 发 现 系统 BACON 和 我 们 研制 的 经 验 公式 发 现 系统 FDD 均 可 以 得 到 开 
普 种 第 三 定律 


“L386.s 


三 /有 三 站 
6.3.6 案例 


案例 是 人 们 经 历 过 的 一 次 完整 的 事件 。 当 人 们 为 解决 一 个 新 间 题 时 ,总 是 先 回顾 自己 
以 前 处 理 过 的 类 似 事件 (案例 ) 。 利 用 以 前 案例 中 解决 问题 的 方法 或 者 处 理 的 结果 ,作为 参 
考 并 进行 适当 的 修改 ,以 解决 当前 新 问题 。 利 用 这 种 思想 建立 起 基于 案例 推理 (case based 
reasoning,CBR) 。CBR 的 基础 是 案例 库 ,在 案例 库 中 存放 大 量 的 成 功 或 失败 的 案例 。CBR 
利用 相似 检索 技术 ,对 新 间 题 到 案例 库 中 搜索 相似 案例 ,再 经 过 对 旧 案 例 的 修改 来 解决 新 
问题 。 

可 见 , 案 例 是 解决 新 问题 的 一 种 知识 。 案 例 知识 一 般 表 示 为 三 元 组 : 

二 问题 描述 , 解 描述 ,效果 描述 二 

。 问题 描述 : 待 求解 问题 及 周围 世界 或 环境 的 所 有 特征 的 描述 ; 
解 描 述 : 对 问题 求解 方案 的 描述 ; 
效果 描述 : 描述 解决 方案 后 的 结果 情况 ,是 失败 还 是 成 功 。 


习题 


.知识 发 现 过 程 由 哪 三 部 分 组 成 ?每 部 分 的 工作 是 什么 ? 
. 数据 挖掘 的 对 象 有 哪些 ? 它们 各 自 的 特点 是 什么 ? 
. 数据 挖掘 的 任务 有 哪些 ? 每 项 任务 的 含义 是 什么 ? 
. 聚 类 与 分 类 有 什么 不 同 ? 

. 如 何 出 现 不 完全 数据 ? 

. 数据 是 随机 丢失 的 概念 是 什么 ? 

. 数据 是 完全 随机 丢失 的 概念 是 什么 ? 

. 哪 种 丢失 数据 的 模式 是 可 以 忽略 的 ? 

. 哪 种 丢失 数据 的 模式 是 不 可 以 忽略 的 ? 

. 处 理 丢 失 数据 的 方法 有 哪些 ? 

. 数据 浓缩 包括 哪 两 个 方面 ? 

. 属性 约 简 的 原则 是 什么 ? 

. 属性 约 简 一 般 采用 哪些 方法 ? 

元 组 压缩 有 哪 几 种 ? 

. 利用 概念 树 如 何 进行 元 组 的 压缩 

. ID3 方法 建立 决策 树 的 基本 思想 是 什么 ? 

.“ 信 息 增益 ?是 “互信 息 ” 吗 ? 

8. 粗糙 集 方法 如 何 获得 规则 ? 

9. 神经 网 络 方法 有 哪 几 类 ? 

20. 遗传 算法 的 3 个 算 子 是 什么 ? 


oo 下 四 性 


> 


wv 


bd 
A 呵 


*137% 


2 
22. 
23; 
24. 
25. 


8 


公式 发 现 中 的 BACON 方法 与 FDD 方法 的 基本 思想 是 什么 ? 

数据 挖掘 的 知识 表示 有 哪些 ? 

规则 知识 与 决策 树 知 识 和 知识 基 是 等 价 的 吗 ? 

人 类 社会 的 知识 表示 是 什么 ? 它 与 计算 机 中 的 知识 表示 有 什么 不 同 ? 
为 什么 要 研究 计算 机 中 的 知识 表示 ? 


7.1 信息 论 原理 


信息 论 是 C. E. Shannon 为 解决 信息 传递 (通信 ) 过 程 问 题 而 建立 的 理论 ,也 称 为 统计 通 
信 理 论 。 一 个 传递 信息 的 系统 是 由 发 送 端 ( 信 源 ) 和 接收 端 ( 信 宿 ) 以 及 连接 两 者 的 通道 ( 信 
道 ) 三 者 组 成 。 信 息 论 把 通信 过 程 看 做 是 在 随机 干扰 的 环境 中 传递 信息 的 过 程 。 在 这 个 通 
信 模 型 中 ,信息 源 和 干扰 (噪声 ) 都 被 理解 为 某 种 随机 过 程 或 随机 序列 。 因 此 ,在 进行 实际 的 
通信 之 前 , 收 信者 (信和 宿 ) 不 可 能 确切 了 解 信 源 究 竞 会 发 出 什么 样 的 具体 信息 ,不 可 能 判断 信 
源 会 处 于 什么 样 的 状态 。 这 种 情形 就 称 为 信 宿 对 于 信 源 状态 具有 不 确定 性 。 而 且 这 种 不 确 
定性 是 存在 于 通信 之 前 的 。 因 而 又 叫做 先 验 不 确定 性 。 

在 进行 了 通信 之 后 , 信 宿 收 到 了 信 源 发 来 的 信息 ,这 种 先 验 不 确定 性 才 会 被 消除 或 者 被 
减少 。 如 果 干 扰 很 小 ,不 会 对 传递 的 信息 产生 任何 可 察觉 的 影响 , 信 源 发 出 的 信息 能 够 被 信 
宿 全 部 收 到 ,在 这 种 情况 下 ,信和 宿 的 先 验 不 确定 性 就 会 被 完全 消除 。 但 是 ,在 一 般 情况 下 , 干 
扰 总 会 对 信 源 发 出 的 信息 造成 某 种 破坏 ,使 信 宿 收 到 的 信息 不 完全 。 因 此 , 先 验 不 确定 性 不 
能 全 部 被 消除 ,只 能 部 分 地 消除 。 换 名 话说 ,通信 结束 之 后 ,信和 宿 还 仍然 具有 一 定 程度 的 不 
确定 性 ,这 就 是 后 验 不 确定 性 。 显 然 , 后 验 不 确定 性 总 要 小 于 先 验 不 确定 性 ,不 可 能 大 于 先 
验 不 确定 性 。 

(1) 如 果 后 验 不 确定 性 的 大 小 正好 等 于 先 验 不 确定 性 的 大 小 ,就 表示 信 宿 根本 没有 收 
到 信息 。 

(2) 如 果 后 验 不 确定 性 的 大 小 等 于 零 , 就 表示 信和 宿 收 到 了 全 部 信息 。 

可 见 , 信 息 是 用 来 消除 (随机 ) 不 确定 性 的 度量 。 信 息 量 的 大 小 由 所 消除 的 不 确定 性 的 
大 小 来 计量 。 


7.1.1 信道 模型 和 学 习 信 道 模型 


1. 信道 模型 

信息 论 的 信道 模型 如 图 7. 1 所 示 。 信 源 发 出 的 符号 U 取 值 为 ui ,ws，…,u,，, 信 和 宿 接收 
的 符号 V 取 值 为 w ,vs ，… ,v,。 信 源 祝 宿 

条 件 概率 PCV1U) 称 为 信道 的 传输 概率 或 转移 概 Li re i A 
率 ,反映 信道 的 输入 与 输出 的 关系 ,用 矩阵 来 表示 称 为 “” ”RD  ” 
转移 概率 短 阵 。 图 7.1 信道 模型 


ww Plw/u) … | 
Plw/uz) Plv/uzs) … Plv/us) po 
Plvi/u) Plv/u) … Plv,/u) 


其 中 ， Spew/a) = 1,j=1,2,.…,g。 

转移 概率 P(v;/ui) 表 示 收 到 信息 六 后 判定 输入 为 ui 的 概率 。 

信道 的 数学 模型 可 用 三 元 组 (U,P(V1U),V) 来 表示 ,给 定 三 元 组 后 信道 就 给 定 了 。 给 
定 了 信道 ,将 要 研究 在 信 宿 收 到 符号 V 的 值 w 后 ,如 何 正 确 判 定 信 源 发 出 的 符号 U 是 哪个 
值 i。 


2. 学 习 信道 模型 


学 习 信 道 模型 是 信息 模型 应 用 于 机 器 学 习 和 数据 挖掘 的 具体 化 。 学 习 信道 模型 的 信 源 
是 实体 的 类 别 ,简单 采用 “是 "“ 非 ?两 类 , 令 实体 类 别 U 的 值 域 为 {wu ,us),U 取 wi 表示 取 
“是 ”类 中 任 一 例子 , 取 uw: 表示 取 “ 非 "类 中 任 一 例子 。 信 宿 是 实体 的 特征 (属性 ) 取 值 。 实 体 


中 某 个 特征 (属性 )V, 它 的 值 域 为 fo ,v0 ，… ,vw,)。 
把 实体 中 的 类 别 U 看 成 输入 ,把 某 特征 的 取 值 V 一 癌 丙 | 学习 信道 | wanay 
看 成 输出 ,建立 “学 习 信 道 模型 ", 如 图 7. 2 所 示 。 a) 
建立 学 习 信 道 模型 后 ,就 可 以 利用 信息 论 的 信道 图 7.2 学 习 信 道 模型 


模型 原理 来 解决 归纳 学 习 和 数据 挖掘 的 问题 。 
7.1.2 信息 箭 和 条 件 炳 
1. 消息 (符号 ) 
ui(i 王 1,2,… ,让 ) 的 发 生 概率 P(uw ) 组 成 信 源 数学 模型 (样本 空间 和 概率 空间 ) 


u a 
[U,P] = | " l | (7.2) 
Plu) P(us) … Pl(u,) 


2. 自信 息 
消息 wz 发 生 后 所 含有 的 信息 量 反映 了 消息 ww; 发 生前 的 不 确定 性 (随机 性 ) ,定义 为 
下 三 log pe =— logP(u,) (7.3) 
log 以 2 为 底 , 所 得 的 信息 量 单位 为 b。 
3. 信息 暗 


自信 息 的 数学 期 望 , 即 信 源 发 出 消息 后 , 信 源 消息 所 提供 的 信息 量 , 也 反映 了 信 源 发 出 
消息 前 的 平均 不 确定 性 。 定 义 为 
H(U) = DP ulog Be =— DP CdlogP ls) (7.4) 
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信息 焙 也 (U) 是 信 源 发 出 前 的 平均 不 确定 性 ,也 称 先 验 粹 。H(U) 的 性 质 

(1) 有 H(U)==0 时 ,说 明 只 存在 着 惟一 的 可 能 性 ,不 存在 不 确定 性 。 

(2) 如 果 nn 种 可 能 的 发 生 都 有 相同 的 概率 , 即 所 有 的 w 有 P(u) 二 1/n,H(U) 达 到 最 大 
值 log ”, 系 统 的 不 确定 性 最 大 。 

(3) P(ui) 互 相 接 近 ,HH(U) 就 大 。P(u;) 相 差 大 , 则 互 (U) 就 小 。 

如 果 信 道中 无 干扰 (噪声 ) ,信道 输出 符号 v 与 输入 符号 4 一 一 对 应 ,那么 接收 到 传送 
过 来 的 符号 后 就 消除 了 对 发 送 符号 的 先 验 不 确定 性 。 


4. 后 验 炳 


一 般 信 道中 有 干扰 存在 , 信 宿 接收 到 符号 V 后 对 信 源 发 出 的 是 什么 符号 仍 有 不 确定 

性 。 那么 ,怎样 来 度量 接收 到 V 后 关于 U 的 不 确定 性 呢 ? 当 没 有 接收 到 输出 符号 V 时 ,已 

知 发 出 符号 U 的 概率 分 布 为 P(U) ,而 当 接 收 到 输出 符号 V=w 后 ,输入 符号 的 概率 分 布 发 

生 了 变化 , 变 成 后 验 概率 分 布 P(U|w)。 那 么 接收 到 输出 符号 V=w 后 ,关于 UU 的 平均 不 确 
定性 为 

H(U |v) = DP | wlog per To (7.5) 


| v;) 
这 是 接收 到 输出 符号 vj 后 关于 UU 的 后 验 焙 。 后 验 炉 是 当 信 道 接收 端 接收 到 输出 符号 
后 ,关于 输入 符号 U 的 信息 度量 。 


5. 条 件 炳 


后 验 坑 在 输出 符号 集 V 的 范围 内 是 个 随机 量 ,对 后 验 炉 在 输出 符号 集 V 中 求 期 望 ,得 
到 条 件 炉 


H(U|V) = SP SP | vlog pe fo (交合 


个 条 件 信 称 为 信道 疑义 度 。 它 表示 在 给 出 端 收 到 全 部 输 出 符号 V 后 ,对 于 输入 端的 
Ns U 尚 存在 的 不 确定 性 (存在 疑义 )。 对 U 集 尚 存在 的 不 确定 性 是 由 于 干扰 (噪声 ) 引 
起 的 。 如 果 是 一 一 对 应 信道 ,那么 接收 到 符号 集 V 后 ,对 U 集 的 不 确定 性 完全 消除 , 则 信道 
疑义 度 H(UIV)=0。 
从 上 面 分 析 可 知 : 条 件 炉 小 于 无 条 件 炉 , 即 有 H(U1V) 二 HH(U)。 说明 接 收 到 符号 集 V 
的 所 有 符号 后 ,关于 输入 符号 U 的 平均 不 确定 性 减少 了 , 即 总 能 消除 一 些 关 于 输入 端 U 的 
不 确定 性 ,从 而 获得 了 一 些 信息 。 


7.1.3 互信 息 与 信息 增益 


甩 (U) 代 表 接 收 到 输出 符号 集 V 以 前 关于 输入 符号 集 U 的 平均 不 确定 性 ,而 HCUIV) 
代表 收 到 输出 符号 集 V 后 关于 输入 符号 U 的 平均 不 确定 性 。 可 见 , 通 过 信道 传输 消除 了 一 
些 不 确定 性 ,获得 了 一 定 的 信息 。 定 义 : 

I(U,V)= H(U)— HU |V) 好 

I(U,V) 称 为 U 和 V 之 间 的 互信 息 。 它 代表 接收 到 符号 集 V 后 获得 的 关于 U 的 信 
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息 量 。 
可 见 , 炉 ( 玉 (U)、H(UIV)) 只 是 平均 不 确定 性 的 描述 。 炉 差 ( 态 (U) 一 昌 (U1V)) 是 不 
确定 性 的 消除 , 即 互信 息 才 是 接收 端 所 获得 的 信息 量 。 

对 输入 端 U 只 有 wi 、wz 两 类 ,互信 息 的 计算 公式 为 : 


2 
二 SY pk 
HU) 2 Pu log Pl) 


HU IV) = DP Po | wlog pe To 
I(U,V) =H(U)— HOU IV) 
当 P(wi) 或 Pluilv) 为 零 时 ,定义 对 数 为 零 。 
J. R. Quinlan 在 提出 ID3 方法 时 ,用 “信息 增益 ”概念 ,实际 上 是 信息 论 中 的 “互信 息 ” 
概念 。 


7.1.4 信道 容量 与 译 码 准则 


1. 信道 容量 


[2 


给 定 信道 的 互信 息 I(U,V) 是 P(U) 的 门 型 函数 。 由 门 型 函数 的 性 质 知道 ,一 定 存 在 一 
概率 分 布 P(U) ,使 得 I(U,V) 达 到 最 大 。 这 个 最 大 的 互信 息 就 称 为 信道 容量 (capacity) , 记 
为 C。 

C= max(I(U,V))} 78) 

无 论 P(U) 如 何 变化 ,I(U,V) 总 不 会 大 于 C。 因 此 C 对 给 定 信道 是 个 常数 。 

若 以 C 作为 特征 选择 量 , 去 掉 C 小 的 特征 (信息 量 小 的 特征 ) ,选择 C 大 的 特征 (信息 量 
大 的 特征 ), 即 C 大 的 特征 对 区 分 正 反 例 有 效 。 

互信 息 I(U,V) 的 计算 会 随 实例 个 数 的 变化 而 变化 ,而 信道 容量 C 不 会 随 实体 个 数 的 
多 少 而 变化 ,用 C 作为 特征 的 信息 量 更 准确 。 但 是 ,C 的 计算 极为 复杂 ,一 般 要 用 计算 机 做 
迭代 运算 。 


2。 译 码 准则 
信息 论 方法 需要 选择 信道 ,然后 根据 输出 判定 输入 是 什么 类 别 。 
这 里 只 研究 二 元 信道 译 码 准 则 ,多 元 信道 可 以 转换 为 二 ， 内 
元 信道 。 二 元 信道 如 图 7. 3 所 示 。 ee 
将 其 中 转移 概率 用 和 矩阵 表示 为 [ | “二 一 


举 一 个 简单 例子 , 设 有 二 元 信道 ,其 转移 概率 和 矩阵 图 7.3 二 元 信道 
wp_ {1/3 2/3 
0 1。 | 

当 得 到 特征 值 w 时 , 若 判定 实体 的 类 别 为 za , 则 译 对 的 可 能 性 pu 为 1/3, 译 错 的 可 能 性 
> 


pa 为 2/3。 反 之 得 到 vw 时 译 成 wz, 则 译 对 的 可 能 性 2z: 为 2/3 , 译 错 的 可 能 性 如 为 1/3。 可 
见 译 错 的 概率 既 与 信道 的 统计 特性 有 关 又 与 译 码 准则 有 关 。 

现在 要 定义 一 个 译 码 准 则 。 设 信道 如 图 7. 3 所 示 , 定 义 译 码 准则 就 是 要 设计 一 个 函数 
F(v;) 对 于 输出 的 每 一 个 wv 惟一 确定 输入 的 一 个 类 别 ui; 与 之 对 应 ( 单 值 函 数 )。 


二 元 信道 可 以 定义 译 码 准则 : 
， hae = 或 者 B， [mw 一 zz 
F(v,) 一 zz 下 (u ) 一 


还 可 以 有 另外 的 定义 方法 。 问 题 是 如 何 得 到 使 平均 错误 概率 最 小 的 译 码 规则 。 

(1) 最 大 后 验 概率 准则 

后 验 概率 P(uwy/vw ) 表 示 输 入 ui 发 生 以 后 出 现 的 概率 。 用 P(u, /vj) 表 示 P(u/v;) 
与 Pl(wus/v;) 中 的 一 个 。 

当 满 足 条 件 PC(u, |1v;) 宇 Plui|v) ,一 1,2 时 定义 译 码 函数 F(vj)== u，。 

其 中 尺 , 是 ww 和 ws 中 的 某 一 个 。 可 以 证 明 该 准则 的 平均 错误 概率 最 小 。 即 把 每 个 vw 判 
成 具有 最 大 后 验 概率 PCwi|w) 的 那个 类 别 。 这 个 准则 称 为 “最 大 后 验 概率 准则 ”或 “最 小 错 
误 概率 准则 ”。 

(2) 最 大 似 然 译 码 准则 

转移 概率 Plvjlu,) 是 取 PCvj/u1) 与 Plvj/ws) 其 中 之 一 。 

当 满足 PCv | ws ) 宇 P(vj |ui), 译 码 函 数 仍 定义 为 F(v) 二 u,。 这 样 定义 的 译 码 准则 
称 为 最 大 似 然 译 码 准 则 。 在 PC) 三 PCws) 时 ,两 种 准则 是 等 价 的 。 


7.2 决策 树 方法 


7.2.1 决策 树 概念 


决策 树 是 用 样本 的 属性 作为 结 点 ,用 属性 的 取 值 作为 分 支 的 树 结构 ,是 利用 信息 论 原理 
对 大 量 样本 的 属性 进行 分 析 和 归纳 而 产生 的 。 决 策 树 的 根 结 点 是 所 有 样本 中 信息 量 最 大 的 
属性 。 树 的 中 间 结 点 是 该 结 点 为 根 的 子 树 所 包含 的 样本 子 集中 信息 量 最 大 的 属性 。 决 策 树 
的 叶 结 点 是 样本 的 类 别 值 。 

决策 树 用 于 对 新 样本 的 分 类 , 即 通过 决策 树 对 新 样本 属性 值 的 测试 ,从 树 的 根 结 点 开 
始 , 按 照样 本 属性 的 取 值 ,逐渐 沿 着 决策 树 向 下 ,直到 树 的 叶 结 点 ,该 叶 结 点 表示 的 类 别 就 是 
新 样本 的 类 别 。 决 策 树 方法 是 数据 挖掘 中 非常 有 效 的 分 类 方法 。 

决策 树 是 一 种 知识 表示 形式 ,是 对 所 有 样本 数据 的 高 度 概 括 , 即 决策 树 能 准确 地 识别 所 
有 样本 的 类 别 , 也 能 有 效 地 识别 新 样本 的 类 别 。 

决策 树 概念 最 早出 现在 CLS(concept learning system) 中 ,影响 最 大 的 是 J.R. Quinlan 
于 1986 年 提出 的 ID3 方法 ,他 提出 用 信息 增益 ( 即 信息 论 中 的 互信 息 ) 来 选择 属性 作为 决策 
树 的 结 点 。 由 于 决策 树 的 建树 算法 思想 简单 ,识别 样本 效率 高 的 特点 ,使 ID3 方法 成 为 当时 
机 器 学 习 领 域 中 最 有 影响 的 方法 之 一 。 后 来 ,不 少 学 者 提出 了 改进 ID3 的 方法 ,比较 有 影响 
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的 是 ID4、ID5 方法 。J. R. Quinlan 本 人 于 1993 年 提出 了 改进 ID3 的 C4. 5 方法 ,C4. 5 方法 
是 用 信息 增益 率 来 选择 属性 作为 决策 树 的 结 点 ,这 样 建立 的 决策 树 识别 样本 的 效率 更 提高 
了 。C4. 5 方法 还 增加 剪 枝 、. 连 续 属 性 的 离散 化 .产生 规则 等 功能 。 它 使 决策 树 方法 再 一 次 
得 到 了 提高 。 

从 ID3 方法 到 C4. 5 方法 ,决策 树 的 结 点 均 由 单个 属性 构成 ,缺少 不 同属 性 的 关系 。 我 
们 在 研究 信息 论 以 后 ,于 1991 年 提出 了 基于 信道 容量 的 IBLE 方法 和 1994 年 提出 的 基于 
归 一 化 互信 息 的 IBLE-R 方法 。 此 两 方法 建立 的 是 决策 规则 树 。 树 的 结 点 是 由 多 个 属性 组 
成 。 这 样 ,在 树 的 结 点 中 体现 了 多 个 属性 的 相互 关系 。 由 于 信道 容量 是 互信 息 的 最 大 值 ,不 
随 样 本 数 的 改变 而 改变 ,从 而 使 IBLE 方法 在 样本 识别 效率 上 , 比 ID3 方法 提高 了 10%。 
IBLE-R 方法 在 IBLE 方法 的 基础 上 增加 了 产生 规则 的 功能 。 

决策 树 方法 ID3 和 C4. 5 以 及 决策 规则 树 方法 IBLE 和 IBLE-R 的 理论 基础 都 是 信 


息 论 。 
7.2.2 ID3 方法 基本 思想 


J.R. Quinlan 的 ID3 方法 的 前 身 是 CLS 方法 。Hunt 提出 的 CLS 的 工作 过 程 为 : 首先 
找 出 有 判别 力 的 属性 ,把 数据 分 成 多 个 子 集 , 每 个 子 集 又 选择 有 判别 力 的 属性 进行 划分 ,一 
直 进 行 到 所 有 子 集 仅 包含 同一 类 型 的 数据 为 止 。 最 后 得 到 一 棵 决策 树 , 可 以 用 它 来 对 新 的 
样 例 进 行 分 类 。CLS 的 不 足 是 没有 说 明 如 何 选择 有 判断 力 的 属性 。 

J.R. Quinlan 的 工作 主要 是 引进 了 信息 论 中 的 互信 息 ,他 将 其 称 为 信息 增益 (informa- 
tion gain) ,作为 特征 (属性 ?判别 能 力 的 度量 ,并且 将 建树 的 方法 艇 在 一 个 迭代 的 外 壳 之 中 。 

在 一 实体 世界 中 ,每 个 实体 用 多 个 特征 来 描述 。 每 个 特征 限于 在 一 个 离散 集中 取 互 斥 
的 值 。 例 如 , 设 实 体 是 某 天 早晨 ,分 类 任务 是 关于 气候 的 类 型 ,特征 (属性 ) 为 : 

。 天气 。 取 值 为 : 晴 , 多 云 , 雨 

*。 气温 取 值 为 : 冷 ,适中 , 热 

。 湿度 取 值 为 : 高 ,正常 

。 风 取 值 为 : 有 风 , 无 风 

每 个 实体 属于 不 同 的 类 别 , 为 简单 起 见 , 假 
定 仅 有 两 个 类 别 , 分 别 为 P、N。 在 这 种 两 个 类 
别 的 归纳 任务 中 ,P 类 和 N 类 的 实体 分 别称 为 
概念 的 正 例 和 反例 。 将 一 些 已 知 的 正 例 和 反例 
放 在 一 起 便 得 到 训练 集 。 

表 7.1 给 出 一 个 训练 集 。 由 归纳 学 习 算法 
ID3 算法 得 出 一 棵 正确 分 类 训练 集中 每 个 实体 
的 决策 树 , 如 图 7.4 所 示 。 该 决策 树 能 对 训练 集 
中 的 每 个 实体 按 特征 取 值 ,判别 出 它 属于 PN 
中 的 哪 一 类 。 


晴 | 二 


图 7.4 ID3 决策 树 
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表 7.1 气候 训练 集 


属 性 
No. 类 别 
天 气 气温 湿度 风 
了 晴 热 高 无 风 N 
2 晴 热 高 有 风 N 
3 多 云 热 高 无 风 P 
4 雨 适中 高 无 风 P 
5 雨 冷 正常 无 风 P 
6 雨 冷 正常 有 风 N 
7 多 云 冷 正常 有 风 P 
8 晴 适中 高 无 风 N 
9 晴 冷 正常 无 风 P 
10 雨 适中 正常 无 风 P 
11 晴 适中 正常 有 风 P 
12 多 云 适中 高 有 风 P 
13 多 云 热 正常 无 风 P 
14 雨 适中 高 有 风 N 


决策 树叶 子 为 类 别名 , 即 P 或 者 N。 其 他 结 点 由 实体 的 特征 组 成 ,每 个 特征 的 不 同 取 
值 对 应 一 分 支 。 若 要 对 一 实体 分 类 ,从 树 根 开始 进行 测试 , 按 特征 的 取 值 分 支 向 下 进入 下 层 
结 点 ,对 该 结 点 进行 测试 ,过 程 一 直 进行 到 叶 结 点 ,实体 被 判 属于 该 叶 结 点 所 标记 的 类 别 。 
现 有 训练 集 外 的 一 个 例子 , 某 天 早晨 气候 描述 为 ; 

。 天气 ; 多 云 

。 气 温 : 冷 

。 湿 度 : 正常 

。 风 : 无 风 

它 属 于 哪 类 气候 呢 ? 用 图 7.4 来 判别 ,可 以 得 该 实体 的 类 别 为 P 类 。 

实际 上 ,能 正确 分 类 训练 集 的 决策 树 不 止 一 棵 。J. R. Quinlan 的 ID3 算法 能 得 出 结 点 
最 少 的 决策 树 。 


7.2,3 ID3 算法 


1. 主 算法 


(1) 从 训练 集中 随机 选择 一 个 既 含 正 例 又 含 反例 的 子 集 ( 称 为 “窗口 ”); 

(2) 用 “建树 算法 ”对 当前 窗口 形成 一 棵 决策 树 ; 

(3) 对 训练 集 (窗口 除外 ) 中 例子 用 所 得 决策 树 进行 类 别 判 定 , 找 出 错 判 的 例子 ; 

(4) 车 存在 错 判 的 例子 ,把 它们 插入 窗口 , 转 (2) ,否则 结束 。 

主 算法 流程 用 图 7. 5 表示 。 其 中 PE NE 分 别 表示 正 例 集 和 反例 集 ,它们 共同 组 成 训 
练 集 。PE' .PE" 和 NE'、NE" 分 别 表 示 正 例 集 和 反例 集 的 子 集 。 

主 算法 中 每 迭代 循环 一 次 ,生成 的 决策 树 将 会 不 相同 。 


训练 集 取 子 集 窗口 
PE 、NE 建 窗口 PE'、NE' 


扩展 窗口 
PE= PE 中 PE" 
NE= NE’+ NE” 


此 决策 树 为 
最 后 结果 


图 7.5 ID3 主 算法 流程 


2. 建树 算法 


(1) 对 当前 例子 集合 计算 各 特征 的 互信 息 。 

(2) 选择 互信 息 最 大 的 特征 Ax 作 为 树 (或 子 树 ) 的 根 结 点 。 

(3) 把 在 As 处 取 值 相同 的 例子 归于 同一 子 集 , 该 取 值 作为 树 的 分 支 。Ax 取 几 个 值 就 得 
几 个 子 集 , 各 取 值 作为 树 的 一 个 分 支 。 

(4) 对 既 含 正 例 又 含 反例 的 子 集 递归 调用 建树 算法 。 

(5) 若 子 集 仅 含 正 例 或 反例 ,对 应 分 支 标 上 了 或 N, 返 回调 用 处 。 


7.2.4 实例 与 讨论 
1. 实例 计算 
对 于 气候 分 类 问题 进行 具体 计算 如 下 。 


(1) 信息 箭 的 计算 
信息 粹 : H(U) = 一 2PCu)log:P(ui) 
类 别 w 出 现 概率 ， PG) 二 | 各 
1S| 表 示例 子 集 S 的 总 数 , lui | 表示 类 别 ui 的 例子 数 。 
对 9 个 正 例 和 5 个 反例 有 : PCGw)==9/14 ，P(u ) 一 5/14 
H(U) = (9/14)logs (14/9) + (5/14)logz (14/5) ~ 0.94b 
(2) 条 件 炉 计算 
条 件 焙 : H(U | V) = 一 2 Pv) Pi/v)logs Pu:/v) 


属性 A, 取 值 w 时 ,类 别 i 的 条 件 概率 ; PC/ 刀 ) 二 | 各 


vl 
Ai 一 天 气 , 它 的 取 值 有 : 书 一 睛 ,ww 一 多 云 ,ws 一 雨 。 
在 Ai 处 取 值 * 晴 ”的 例子 有 5 个 , 取 值 “多 云 ”的 例子 有 4 个 , 取 值 * 雨 "的 例子 有 5 个 , 故 : 
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Plm)=5/14, P(uw) = 4/14， P(uw) = 5/14 
取 值 为 “ 晴 ?的 5 个 例子 中 有 2 个 正 例 、3 个 反例 , 故 : 
Pl(u/w) = 2/5, Pl(u/vi) = 3/5 
取 值 为 “多 云 ? 时 有 : P(uw /u ) 王 4/4， P(us/v)= 二 0 
取 值 为 “十 "时 有 : Plu/v)==2/5, P(wus/vs)=3/5 
H(U |V) =(5/14)((2/5)log(5/2) 十 (3/5)log(5/3)) 十 (4/14)((4/4)log(4/4) 十 0) 
十 (5/14)((2/5)log(5/2) 十 (3/5)log(5/3)) s 0.694b 
(3) 互信 息 计算 
对 Al 二 天 气 处 有 : 
I( 天 气 ) = H(U) 一 H(U |V) = 0.94 一 0.694 守 0.246b 

类 似 可 得 ，: 

TI( 气 温 )=0.029 b 

I( 湿 度 )==0.151 b 

TI( 风 ) 王 0.048 b 

(4) 建 决策 树 的 树 根 和 分 支 

ID3 算法 将 选择 互信 息 最 大 的 特征 “天气” 作为 树 根 ,在 14 个 例子 中 对 天气” 的 3 个 取 
值 进行 分 支 ,3 个 分 支 对 应 3 个 子 集 , 分 别 是 : 

0 

其 中 F2 中 的 例子 全 属于 P 类 ,因此 对 应 分 支 标记 为 P, 其 余 两 个 子 集 既 含有 正 例 又 含 
有 反例 ,将 递归 调用 建树 算法 。 

(5) 递归 建树 

分 别 对 Fl 和 F3 子 集 利用 ID3 算法 ,在 每 个 子 集中 对 各 特征 ( 仍 为 4 个 特征 ) 求 互 
信息 。 

Q@ Fl 中 的 “天 气 ”" 全 取 “ 晴 ” 值 , 则 有 H(U)= 二 HCUIV), 有 I(UIV)==0, 在 余下 3 个 特征 中 
求 出 “湿度 ”互信 息 最 大 ,以 它 为 该 分 支 的 根 结 点 ,再 向 下 分 支 。“ 湿 度 ” 取 “高 ”的 例子 全 为 N 
类 ,该 分 支 标记 N。 取 值 * 正 常 ”的 例子 全 为 P 类 ,该 分 支 标记 P。 

@ 在 F3 中 ,对 4 个 特征 求 互信 息 , 得 到 * 风 ”特征 互信 息 最 大 , 则 以 它 为 该 分 支 根 结 点 。 
再 向 下 分 支 ,“ 风 ” 取 有 风 ” 时 全 为 N 类 ,该 分 支 标记 N。 取 “无 风 ” 时 全 为 P 类 ,该 分 支 标记 P。 

这 样 就 得 到 图 7.4 的 决策 树 。 


2. 对 ID3 的 讨论 


(1) 优点 

ID3 在 选择 重要 特征 时 利用 了 互信 息 的 概念 ,算法 的 基础 理论 清晰 ,使 得 算法 较 简单 ， 
是 一 个 很 有 实用 价值 的 示例 学 习 算法 。 

该 算法 的 计算 时 间 是 例子 个 数 、 特 征 个 数 、 结 点 个 数 之 积 的 线性 函数 。 我 们 曾 用 4761 
个 关于 茶 的 质谱 例子 做 了 试验 。 其 中 正 例 2361 个 ,反例 2400 个 ,每 个 例子 由 500 个 特征 描 
述 ,每 个 特征 取 值 数目 为 6, 得 到 一 棵 1514 个 结 点 的 决策 树 。 对 正 、 反 例 各 100 个 测试 例 做 
了 测试 , 正 例 判 对 82 个 ,反例 判 对 80 个 ,总 预测 正确 率 为 81% ,效果 是 令 人 满意 的 。 
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(2) 缺点 

@ 互信 息 的 计算 依赖 于 特征 取 值 的 数目 较 多 的 特征 ,这 样 不 太 合理 。 一 种 简单 的 办 法 
是 对 特征 进行 分 解 ,如 上 节 例 中 ,特征 取 值 数目 不 一 样 ,可 以 把 它们 统统 化 为 二 值 特征 ,如 天 
气 取 值 晴 、 多 云雨, 可 以 分 解 为 3 个 特征 : 天 气 - 晴 , 天 气 - 多 云 ,天 气 - 雨 。 取 值 都 为 “是 ”或 
“ 否 ”, 对 气温 也 可 做 类 似 的 工作 。 这 样 衣 不 存在 偏向 问题 了 。 

@ 用 互信 息 作 为 特征 选择 量 存 在 一 个 假设 , 即 训 练 例子 集中 的 正 、 反 例 的 比例 应 与 实 
际 问 题 领域 里 正 ,反例 比例 相同 。 一 般 情况 下 不 能 保证 相同 ,这 样 计算 训练 集 的 互信 息 就 有 

@ ID3 在 建树 时 ,每 个 结 点 仅 含 一 个 特征 ,是 一 种 单 变 元 的 算法 ,特征 间 的 相关 性 强调 
不 够 。 虽 然 它 将 多 个 特征 用 一 棵 树 连 在 一 起 ,但 联系 还 是 松散 的 。 

@ ID3 对 噪声 较为 敏感 。 关 于 什么 是 噪声 ,J. R. Quinlan 的 定义 是 训练 例子 中 的 错误 
就 是 噪声 。 它 包含 两 方面 ,一 是 特征 值 取 错 ,二 是 类 别 取 错 。 

@ 当 训 练 集 增加 时 ,ID3 的 决策 树 会 随 之 变化 。 在 建树 过 程 中 ,各 特征 的 互信 息 会 
例子 的 增加 而 改变 ,从 而 使 决策 树 也 变化 。 这 对 渐 近 学 习 ( 即 训练 例子 不 断 增加 ) 是 不 方 
便 的 。 

总 的 来 说 ,ID3 由 于 其 理论 的 清晰 ,方法 简单 .学习 能 力 较 强 , 适 于 处 理 大 规模 的 学 习 问 
题 , 并 广 为 流 传 ,受到 极 大 的 关注 ,是 数据 挖掘 和 机 器 学 习 领 域 中 的 一 个 极 好 范例 ,也 不 失 为 
一 种 知识 获取 的 有 用 工具 。 


7.2.5 C4.5 方 法 


ID3 算法 在 数据 挖掘 中 占有 非常 重要 的 地 位 。 但 是 ,在 应 用 中 ,ID3 算法 不 能 够 处 理 连 
续 属 性 .计算 信息 增益 时 偏向 于 选择 取 值 较 多 的 属性 等 不 足 。C4. 5 是 在 ID3 基础 上 发 展 起 
来 的 决策 树 生成 算法 ,由 J.R. Quinlan 在 1993 年 提出 。C4. 5 克服 了 ID3 在 应 用 中 存在 的 
不 足 , 主 要 体现 在 以 下 几 个 方面 : 

(1) 用 信息 增益 率 来 选择 属性 ,克服 了 用 信息 增益 选择 属性 时 偏向 选择 取 值 多 的 属性 
的 不 足 ; 

(2) 在 树 构造 过 程 中 或 者 构造 完成 之 后 ,进行 剪 枝 ; 

(3) 能 够 完成 对 连续 属性 的 离散 化 处 理 ; 

(4) 能 够 对 于 不 完整 数据 的 处 理 , 例 如 未 知 的 属性 值 ; 

(5) C4.5 采用 的 知识 表示 形式 为 决策 树 ,并 最 终 可 以 形成 产生 式 规则 。 


1. 构造 决策 树 


设 了 为 数据 集 , 类 别 集合 为 {Ci ,Cs,…,C) ,选择 一 个 属性 立 把 工分 为 多 个 子 集 。 设 
V 有 互 不 重合 的 n 个 取 值 (vw ,vs，,…,v,), 则 工 被 分 为 n 个 子 集 Ti ,Ts,…,T,, 这 里 7; 中 的 
所 有 实例 的 取 值 均 为 v;。 
令 : |T| 为 数据 集 T 的 例子 数 ,|T;| 为 v= 二 vi 的 例子 数 ,|C; | 二 freq(C;,T) 为 C; 类 的 例 
子 数 ,|1C?| 是 V==w 例 子 中 具有 C; 类 别 例 子 数 。 
则 有 : 
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Q@ 类 别 Ci 的 发 生 概率 : p(C;)=|C;1/1T|= freq(G;,T)/IT| 

@ 属性 V 王 的 发 生 概率 : p(v) = |T;|/1|T| 

@ 属性 V 一 六 的 例子 中 具有 类 别 Ci 的 条 件 概率 : 

zc vol) 三 |1C17/ 1 

Quinlan 在 ID3 中 使 用 信息 论 中 的 信息 增益 (gain) 来 选择 属性 ,而 C4. 5 采用 属性 的 信 
息 增益 率 (gain_ratio) 来 选择 属性 。 

以 下 公式 中 的 昌 (C)、H(C/V)、I(C,V)、H(V) 是 信息 论 中 的 写法 ,而 info(T)、 
info,(T) .gain(V) 、plit_info(V) ,gain_ratio 是 Quinlan 的 写法 ,在 此 统一 起 来 。 

(1) 类 别 的 信息 坑 


k 
H(C) =— Dp(C)log(p(C))) . 三 订 | | !] 
j=1 


3 
freq(C , T) [条 元 和 
DD | 天 


) info( T) 


j=l 


(2) 类 别 条 件 信 
按照 属性 V 把 集合 T 分 割 ,分割 后 的 类 别 条 件 焙 为 


HOC|V) =— Dplv) PplC; | vi)logp(C; | v) 
- 


-> 


(3) 信息 增益 (gain), 即 互信 息 
I(C,V) = H(C)— H(C |V) = info(T) — info,(T) = gain(V) 
(4) 属性 V 的 信息 炉 
H(V) =— Dp log peu)) > 地 把 Hog, ( 二 】 split_info(V) 
(5) 信息 增益 率 
gain_ratio = I(C.V)/H(V) = gain(V)/split_info(V) 
C4.5 方法 对 ID3 的 改进 是 用 信息 增益 率 来 选择 属性 。 
理论 和 实验 表明 ,采用 “信息 增益 率 ”"(C4. 5 方法 ) 比 采用 “信息 增益 "(1D3 方法 ) 更 好 ， 
主要 是 克服 了 ID3 方法 选择 偏向 取 值 多 的 属性 。 


2. 连续 属性 的 处 理 


在 ID3 中 没有 处 理 连 续 属性 的 功能 。 在 C4. 5 方法 中 , 设 在 集合 T 中 ,连续 属性 A 的 取 
值 为 fu ,vo ,ww 六 则 任何 在 和 zu+i 之 间 的 任意 取 值 都 可 以 把 实例 集合 分 为 两 部 分 ， 

={t|A<v} 和 Ts={t|A>v}。 

可 以 看 到 一 共有 mm 一 1 种 分 割 情况 ,对 属性 A 的 mm 一 1 种 分 割 的 任意 一 种 情况 ,作为 该 
属性 的 两 个 离散 取 值 ,重新 构造 该 属性 的 离散 值 , 青 按照 上 述 公式 计算 每 种 分 割 所 对 应 的 信 
息 增益 率 gain_ratio(vi) ,在 m 一 1 种 分 割 中 ,选择 最 大 增益 率 的 分 割 作为 属性 A 的 分 支 , 即 

Threshold(V) = v 


LinfoCT, ) = info,(T) 


* 14 二 


其 中 ，gain_ratio(w ) 二 max{ gain_ratio(w) ), 即 ww 是 各 wv; 的 信息 增益 率 最 大 者 。 
则 连续 属性 A 可 以 分 割 为 : 


A Threshold(V) 
A > Threshold(V) 


3. 决策 树 剪 枝 


由 于 噪声 和 随机 因素 的 影响 ,决策 树 一 般 会 很 复杂 ,因此 需要 进行 剪 枝 操作 。 

(1) 什么 时 候 剪 枝 

有 两 种 前 枝 策略 : 

a 在 树 生成 过 程 中 判断 是 否 还 继续 扩展 决策 树 。 若 停止 扩展 , 则 相当 于 剪 去 该 结 点 以 
下 的 分 支 。 

@ 对 于 生成 好 的 树 剪 去 某 些 结 点 和 分 支 。C4. 5 方法 采用 第 二 种 方法 。 

剪 枝 之 后 的 决策 树 的 叶 结 点 不 再 只 包含 一 类 实例 。 结 点 有 一 个 类 分 布 描述 , 即 该 叶 结 
点 属于 某 类 的 概率 。 

(2) 基于 误差 的 前 枝 

决策 树 的 剪 梳 通 常 是 用 叶 结 点 蔡 代 一 个 或 者 多 个 子 树 ,然后 选择 出 现 概率 最 高 的 类 作 
为 该 结 点 的 类 别 。 在 C4.5 方法 中 ,还 允许 用 其 中 的 树枝 来 替代 子 树 。 

如 果 使 用 叶 结 点 或 者 树枝 代替 原来 的 子 树 之 后 ,误差 率 若 能 够 下 降 , 则 使 用 此 叶 结 点 或 
者 树枝 代替 原来 的 子 树 。 


4. 从 决策 树 抽 取 规 则 


在 C4. 5 方法 中 ,对 于 生成 的 决策 树 ,可 以 直接 获得 规则 。 从 根 到 叶 的 每 一 条 路 径 都 可 
以 是 一 条 规则 。 这 样 ,可 以 看 出 有 多 少 条 路 径 就 可 以 产生 多 少 条 规则 。 例 如 ,从 下 面 的 决策 
树 中 可 以 得 到 规则 : 
决策 树 : 
F=0 
J=0: Class0 
J=1 
K=0: Class0 
K=1: Classl 


K=0: Class0 
K=1: Classl 


“LD s 


沿 着 决策 树 的 其 中 一 条 路 径 F 一 G 一 本 一 K 得 到 规则 : 
IF F=1, G=0, J=1, K=1 THEN Classl 


7.3 决策 规则 树 方法 


7.3.1 IBLE 方法 的 基本 思想 


1, IBLE 方法 的 特点 


我 们 于 1991 年 研制 的 IBLE 方法 是 利用 信息 论 中 信道 容量 的 概念 作为 对 实体 中 选择 
重要 特征 的 度量 。 信 道 容量 是 一 个 不 依赖 于 正 、 反 例 的 比例 , 仅 依赖 于 训练 集中 正 、 反 例 的 
特征 取 值 的 选择 量 。 这 样 ,信道 容量 克服 了 互信 息 依赖 正 、 反 例 比例 的 缺点 。IBLE 方法 不 
同 于 ID3 方法 每 次 只 选 一 个 特征 作为 决策 树 的 结 点 ,而 是 选 一 组 重要 特征 建立 规则 作为 决 
策 树 的 结 点 。 这 样 ,用 多 个 特征 组 合成 规则 的 结 点 来 鉴别 实例 ,能 够 更 有 效 地 正确 判别 。 对 
那些 不 能 直接 判定 的 例子 继续 利用 决策 规则 树 的 其 他 规则 结 点 来 判别 ,这 样 一 直 进行 下 去 ， 
直至 判 出 类 别 为 止 。 

IBIE 方 法 建立 的 是 决策 规则 树 , 树 中 每 个 结 点 是 由 多 个 特征 所 组 成 。 特 征 的 选取 是 
通过 计算 各 特征 信道 容量 来 进行 的 。 各 特征 的 正 例 标准 值 由 译 码 函 数 决定 。 结 点 中 判别 
正 、 反 例 的 阔 值 CS,,S,) 是 由 实例 中 权 值 变化 的 规律 来 确定 的 。 


2. 多 元 信道 转化 成 二 元 信道 


在 各 特征 取 多 值 的 情况 下 ,用 互信 息 作 为 特征 选择 量 ,会 出 现 倾向 于 取 某 值 的 例子 数 较 
多 的 特征 ,这 种 倾向 并 不 都 合理 。 用 信道 容量 作为 特征 选择 量 也 必然 有 同样 的 问题 存在 。 
一 种 解决 办 法 是 对 特征 进行 分 解 ,如 前 面 举 的 例 中 ,如 果 特 征 取 值 数目 不 一 样 , 则 可 以 把 它 
们 统统 化 为 二 值 特征 。 如 天 气 取 值 晴 、 多 云雨 ,可 以 分 解 成 3 个 特征 : 天 气 - 晴 、 天 气 -多 
云 . 天 气 - 雨 ,每 个 都 取 值 为 {yes,no) ,对 气温 也 可 以 做 类 似 的 工作 。 这 样 在 选择 特征 时 就 不 
会 出 现 偏向 问题 了 。 


3. 决策 规则 树 


IBLE 是 基于 信息 论 的 示例 学 习 方 法 (information-based learning from examples,IBLE ) 。 
IBLE 算法 从 训练 集 归纳 出 一 棵 决策 规则 树 。 

判定 一 个 实体 属于 ww 类 ,还 是 属于 us 类 ,首先 从 分 析 该 实体 的 特征 入 手 , 用 规则 分 析 会 
得 出 3 种 可 能 结论 : 中 该 实体 属于 中 类 ,加 该 实体 属于 心 类 ,四 不 能 作出 判定 , 需 进 一 步 分 
析 再 做 结论 。 在 进一步 分 析 时 又 会 出 现 上 述 3 种 情形 。 对 一 实体 的 分 析 , 这 个 过 程 一 直 进 
行 到 得 出 具体 类 别 为 止 。IBLE 就 是 依据 这 种 思想 构造 决策 规则 树 的 。 决 策 规则 树 如 图 7. 6 
所 示 。 

对 于 更 复杂 的 问题 除 使 用 主 规则 外 ,还 增加 分 规则 ,得 出 如 图 7.7 所 示 的 决策 规则 树 。 


到 


规则 1 
规则 i ~ 12 


ul 加 规则 2 力 ba 


Vy i | mz | 
> | SS P 规则 a 反 


规则 nl ~ 规则 n2 


ul Ww ul ba ul wh 


图 7.6 IBLE 算 法 的 一 般 决 策 规则 树 图 7.7 IBLE 算 法 的 复杂 决策 规则 树 


4. 决策 规则 树 结 点 


(1) 规则 表示 形式 
决策 规则 树 中 非 叶 结 点 均 为 规则 。 规 则 表示 为 : 
。 特征 ; Ai,A,,…,A, 
. 权 值 : Wi 7 
a 标准 值 : 9 了 
。 阅 值 : S315, 
该 规则 可 形式 描述 为 : 
©@ sum:=0; 
@ 对 i:=1 到 m 作 : 若 (A)=V,, 则 sum:= 二 sum 十 W;; 
@ 若 sum 志 5, , 则 该 例 为 N 类 ; 
@ 若 sum 宇 5,: 则 该 例 为 P 类 ，; 
加 若 5S, 二 sum 二 5S, , 则 该 例 暂 不 能 判 , 转 下 一 条 规则 判别 。 
其 中 sum 表示 权 和 ,(A,) 表 示 特 征 A; 的 取 值 。 
(2) 举例 
下 面 为 说 明 规 则 中 各 成 分 的 意义 , 举 一 个 例子 。 设 问题 空间 中 例子 有 10 个 特征 ( 属 
性 ) ,特征 编号 从 1 到 10。 每 个 特性 取 值 为 fno,yes} ,用 {0,1} 表 示 , 规 则 是 由 重要 特征 组 成 
的 ,对 每 个 特征 求 出 权 值 以 表示 其 重要 程度 ,删除 不 重要 特征 ,得 规则 如 下 : 
。 特征 : 和 
。 权 值 : 100 90 105 500 40 
。 标准 值 : 1 0 1 0 
。 阅 值 ;: 220,100 
现 有 3 个 测试 例子 : 
例 乞 1x C150505051305051s11) 
例子 2: (0,1,0,0,1,0,0,0,1,0) 
。152 。 


例子 3: 《0,1505051505150s13 

例子 1 的 权 和 sum 二 230, 有 sum 之 220, 判 定 例子 1 属于 类。 例子 2 的 权 和 sum 一 
130, 有 100 二 sum 二 220, 认 为 例子 2 不 能 判 ,而 例子 3 有 权 和 sum 二 90, 有 sum 二 100, 判 例 
子 3 的 类 别 为 us 类 。 

通过 上 例 知道 规则 中 Ai ,A;,… ,A 为 组 成 规则 的 特征 ,Wi ,Ws，,…,W 为 对 应 的 权 值 ， 
VisVs，… ,Vi 为 对 应 特征 取 正 例 的 标准 值 ,车 例子 在 该 特征 处 取 值 与 标准 值 相 同 , 则 sum 
( 权 和 ) 加 上 对 应 权 值 ,否则 不 加 。S,、S, 是 判 是 、 判 非 、 不 能 判 的 国 值 。 若 例子 的 权 和 为 
sum,sum 宇 Sp 时 判 为 是 类 (wi 类 ),sum 三 S, 时 判 为 非 类 (ws 类 ),S, 二 sum 二 5, 时 认为 不 能 判 。 
由 于 S,、S, 的 作用 已 知 ,分 规则 中 必 有 S, 二 S,。 


7.3.2 ”IBLE 算法 


IBLE 算法 由 4 部 分 组 成 : 预 处 理 ; 建 决策 树 算 法 ; 建 规则 算法 ;类 别 判 定 算法 。 下 面 分 
别 介绍 。 


1. 预 处 理 


将 例子 集 的 特征 取 多 值 , 变 为 多 个 特征 分 别 取 {0,1} 值 。 即 一 个 特征 取 n 个 值 变 为 n 个 
特征 分 别 取 {0,1}) 值 。 


2. 建 规则 算法 


。 求 各 特征 A 的 信道 容量 Ci ,对 于 一 个 特征 有 分 特征 ( 原 一 个 特征 取 多 值 变 成 多 个 特 
征 取 {0,1} 值 时 ,该 多 个 特征 为 原 特 征 的 分 特征 ) 时 , 取 最 大 C 值 的 分 特征 代表 该 
特征 。 

权 值 的 计算 ( 取 整 ) 公 式 为 Wi 二 [Cs X1000]。 

。 利用 最 大 后 验 准则 定义 该 特征 A 的 译 码 函数 F(1)、F(0)。 

设 类 别 为 wi ws ,特征 V 取 值 1 和 0, 转移 概率 为 PC1/w)、PC0/w)、P(1/u)、P(0/ 
wu1)。 信 道 容量 计算 后 ,可 同时 得 到 类 别 的 先 验 概率 PC ) 和 P(u )。 于 是 , 令 sum 一 P(u ) 
XP(1/ui) 十 Plw)XP(1/u)。 由 贝 叶 斯 公式 : PCw/1)==P(w)XP(/u)/sum, 
P(us/1) 三 Pluz)XP(1/ wus)/sum。 译 码 准 则 为 : 当 P(w/1) 宇 Pl(wus/1) 时 ,F(1) 二 ww; 否 
则 ,F(O)= w。 这 样 ,就 定义 了 特征 V 对 类 别 wi( 正 例 ) 的 标准 值 1 或 0。 可 以 证 明 , 该 准则 
的 错误 概率 最 小 。 

。 利用 译 码 函数 按 正 例 (Cu ) 输 入 ,计算 特征 A 的 标准 值 {0,1)。 

。 选取 前 m 个 信道 容量 ( 即 权 值 ) 较 大 的 特征 构造 规则 。 

一 般 来 说 ,m 的 选取 应 保证 C0. 01b 的 特征 都 被 选中 (对 具体 问题 可 通过 试验 
来 确定 )。 

。 计 算 所 有 的 正 \ 反 例 的 权 和 数 , 从 它们 的 分 布 规律 中 得 出 S, 、S, 阅 值 。 

建立 一 个 二 维 数组 A(m,n) ,m= 二 1,2,3;n 二 1,2,…,|UI(IU| 表 示例 子 总 数 )。 它 由 三 
项 组 成 : A(1,n) 存 放 各 例 的 权 和 (例子 中 各 特征 的 权 值 累 加 之 和 ); A(2,n) 存 放 正 例 个 数 ， 
当 例 子 是 正 例 时 , 它 为 1, 反之 为 零 ; A(3,n) 存 放 反 例 个 数 , 当 例 子 是 反例 时 , 它 为 1, 反 之 

,153， 


先 对 各 正 、 反 例子 求 权 和 并 填 人 数组 A(m,n) 中 。 再 按 权 和 大 小 从 小 到 大 的 顺序 对 数 
组 ACm,n) 进 行 排序 ,对 权 和 相同 的 不 同 的 正 、 反 例 , 将 它们 合并 成 一 列 相 同 的 权 和 ,累计 
正 、 反 例 个 数 。 这 样 ,数组 缩小 了 , 即 n 三 1U|。 而 且 正 、 反 例 权 和 的 规律 性 就 出 现 了 : 权 和 
小 的 部 分 , 正 例 个 数 为 零 , 反 例 个 数 偏 大 ; 权 和 大 的 部 分 , 正 例 个 数 偏 大 ,反例 个 数 为 零 ,如 图 
7.8 所 示 。 


A(1,n) 5, [5, 权 和 

AQ2,n) |0 … 0 zx# [… | … | 冯 0 [二 0 | … | 头 0 | 正 例 个 数 

AG,m [#0 | |#0 [#0 | … | … |#0 |0 … |0 | 反例 个 数 
| 反例 区 正 反例 混合 区 | 正 例 区 


图 7.8 正 \ 反 例 权 和 变化 规律 


从 图 7. 8 中 可 知 ,整个 例子 集合 中 划分 成 3 个 区 : 反例 区 、 正 反例 混合 区 、 正 例 区 。 在 
反例 区 中 , 正 例 个 数 A(2,n) 均 为 零 。 在 正 例 区 中 ,反例 个 数 A(3,n) 均 为 零 。 在 混合 区 中 ， 
正 例 个 数 A(2,n) 和 反例 个 数 A(3,n) 均 不 为 替 。 在 3 个 区 的 分 界线 处 的 权 和 值 作为 S, 、S， 
值 ,用 作 判 别 正 反例 的 阔 值 。 


3. 建 决策 树 算法 


设 了 为 存放 决策 规则 树 的 空间 。 建 决策 树 算 法 如 下 : 

(a) 置 决策 规则 树 T 为 空 。 分 配 一 新 结 点 及 ,T: 二 R; 

(b) 对 当前 训练 集 PEU NE, 利 用 “ 建 规则 算法 ”构造 主 规则 ; 

(c) 用 当前 规则 测试 PE、NE 得 子 集 PEP、PEN、PEM( 正 例 3 个 子 集 ), 以 及 NEP、 
NEN NEM( 反 例 3 个 子 集 )。 其 中 PEP、PEN .PEM 分 别 表示 正 例 被 判 为 P 类 、N 类 ,不 能 
判 这 3 个 子 集 ,NEPNEN NEM 分 别 表示 反例 被 判 为 P 类 、N 类 ,不 能 判 这 3 个 子 集 ; 

(d) 将 当前 规则 放 入 结 点 R; 

(e) 若 (|PEP| 关 0) V (|NEP| 关 0) 则 PE: ==PEP,NE: = NEP; 分 配 一 新 结 点 Wi;R 左 
指针 指向 Wi ; 

Q@ 对 当前 训练 集 PEU NE 利用 “ 建 规 则 算法 ”构造 左 分 规则 ; 

@ 将 左 分 规则 放 入 结 点 Wi 。 

(f) 车 (|PEN| 关 0) V (|NEN| 关 0) 则 PE: ==PEN,NE: ==NEN; 分 配 一 新 结 点 W;;R 
右 指针 指向 W,; 

Q@ 对 当前 训练 集 PEU NE 利用 “ 建 规则 算法 ”构造 右 分 规则 ; 

@ 将 右 分 规则 放 入 结 点 W,。 

(g) 若 (|PEM| 隆 0)V (|NEM| 隆 0) 则 PE: = 二 PEM,NE: 一 NEM ;分 配 一 新 结 点 W;; 
R 的 中 指针 指向 WW;;R: = 二 Wi ; 转 (b); 

(h) 结束 。 

建 决策 树 算法 如 图 7. 9 所 示 。 


。，154。 


PE | -| 建 Kr [HE 
一 一 PEN 一 ~[ PE， 十 ~ 
al | -| 各 | ~、 PEM 一 一 
则 NEP 一 下 
NE 上 一 | 算法 | -~ Kn -| NE | 
| NEM 


图 7.9 IBLE 建 决策 树 算法 图 


4. 类 别 判定 算法 


在 得 到 一 棵 决策 规则 树 后 ,对 一 未 知 实体 EE 如 何 分 类 .下面 给 出 具体 的 算法 : 

(1) 置 根 结 点 为 当前 结 点 ; 

(2) 用 当前 结 点 中 的 规则 对 忆 进行 判定 ; 

@ 判 为 P 时 (对 主 规则 ,该 实体 不 一 定 是 P 类 ), 若 当前 结 点 左 指针 不 空 ( 即 左 规则 存 
在 ) ,将 左 指针 指示 的 结 点 置 为 当前 结 点 且 转 (2), 和 否则 ( 左 指针 为 空 ,该 实体 判 为 了 
类 ) 转 (3); 

@ 判 为 N 时 (对 主 规则 ,该 实体 不 一 定 是 N 类 ), 若 当前 结 点 右 指 针 不 为 空 ( 即 右 规则 
存在 ) , 则 将 右 指针 指示 的 结 点 置 为 当前 结 点 且 转 (2) ,否则 ( 右 指针 为 空 ,该 实体 判 为 N 类 ) 
转 (3); 

@@ 不 能 判 时 , 将 当前 结 点 的 中 指针 指示 的 结 点 置 为 当前 结 点 转 (2)。 

(3) 输出 判别 结果 ,结束 。 


7.3.3 ”IBLE 方法 实例 
7.3.3.1 配 隐形 腿 镜 问题 


1. 简 例 说 明 


(1) 患者 配 隐 形 眼 镜 的 类 别 
患者 是 否 应 配 隐形 眼镜 有 3 类 
@1: 患者 应 配 隐形 眼镜 ; 
@2: 患者 应 配 软 隐形 眼镜 ; 
@3: 患者 不 适合 配 隐形 眼镜 。 
(2) 患者 眼镜 诊断 信息 (属性 ) 
a: 患者 的 年 纪 

年 轻 ; 前 老 光 眼 ; 老 光 眼 

b: 患者 的 眼睛 诊断 结果 

近视 ;远视 

c: 是 否 散 光 

是 ; 否 


d: 患者 的 泪腺 

不 发 达 ; 正 常 

(3) 配 隐 形 眼 镜 实 例 

现 有 24 个 患者 实例 分 别 属 于 3 个 类 别 , 如 表 7. 2 所 示 。 


表 7.2 配 隐形 眼镜 患者 实例 


序号 属性 取 值 诊断 值 序号 属性 取 值 诊断 值 

ac d @ abc dd @ 
1 i 3 好 22 1 1 3 
2 和 2 14 221 2 2 
多 | We 3 15 2 22 1 3 
4 玫 1 16 22 2 2 3 
5 下 3 19 全 和 和 3 
6 1 2 1 2 2 18 3 1 3 2 
7 1221 3 19 3121 3 
8 1 2 2 2 1 20 31 2 3 1 
9 2 1 1 21 3 2 1 3 
10 2 11 2 2 22 3 2 .1.2 2 
11 2 .121 kt 23 3 22 1 3 
12 2 1 2 2 1 24 32 2 2 六 


2. 利用 IBLE 算法 得 出 的 各 类 决策 规则 树 和 逻辑 公式 
(1) @1 类 的 决策 规则 树 


规则 1 

ol b=1 2 2 
0.21 0.048 0.282 0.282 
51=0.5639 

y Ee 
非 @1 类 @1 类 


相应 的 逻辑 公式 为 : 
e222Nad=2Na=1i =@1 
c=2Ad=2Ab=1 —>@]l 
(2) @2 类 的 决策 规则 树 


规则 2 
ol,2 b=2 cl qd2 
0.039 0.008 0.302 0.302 


s1=0.6042 
2 Ev 
非 @2 类 @2 类 


L568"s 


c=l1Ad=2Ab=2 一 @2 
1Ad=2Aa=1l 一 @2 
=l1Ad=2AMa=2 一 @2 


六 
| 


| 


(3) @3 类 的 决策 规则 树 


规则 3 
o3 FrF2 wl 
0.0186 0.004 0.004 0.428 


$1=0.004  s2=0.0265 


<sl | 过 52 
sl< sum < S2 


非 @3 类 @3 类 
规则 4 
a=2 b=1 cl 
022 0.0144 -0.0144 


$1=0.0144 


非 @3 类 @3 类 
该 决策 树 的 逻辑 公式 推导 为 : 
*。 上层 结 点 的 多 辑 公式 
d=1 一 @3 


a=3Ab=2Ac=2—@3 
。 上 层 不 能 判断 逻辑 公式 (中 线 结论 ) 
(b=2Ac=2)YV 
(a=3)V 
(a=3Ab=2)YV 
(a = 二 3 Ac=2) 一 继续 判别 
。 下层 结 点 的 逻辑 公式 
b=1Ac=1—> @3 
a=2— @3 
。 合并 后 下 层 结 点 的 逻辑 公式 (上 层 继续 判别 逻辑 公式 与 下 层 结 点 的 逻辑 公式 
的 合并 ) 
下 二 3 人 页 三 站 人 二 三 工 二 加 3 
a=2AMAb=2Ac=2—> @3 


= 187% 


7.3.3.2 葵 等 8 类 化 合 物 的 分 类 问题 


1. 质谱 分 析 


质谱 仪 是 一 种 化 学 分 析 仪 器 ,以 高 速 电子 禾 击 被 测 样本 ,使 分 子 产 生 分 裂 碎片 且 重 新 排 
列 , 测 量 这 些 碎片 的 荷 质 比 即 能 量 形成 质谱 ,如 图 7. 10 所 示 。 分 析 化 学 家 根据 质谱 可 以 推 
测 出 样本 的 分 子 结构 及 性 质 。 这 是 一 个 极为 复杂 和 困难 的 任务 ,原因 在 于 质谱 数据 量 太 大 
且 伴随 噪声 ,而 且 质 谱 测 定理 论 尚 不 完备 。 在 这 样 的 背景 下 要 用 传统 的 知识 获取 技术 建造 
一 个 质谱 解析 专家 系统 是 极为 困难 的 。 因 此 ,用 计算 机 从 大 量 的 质谱 数据 中 自动 获得 一 些 
知识 便 成 了 一 个 诱 人 的 设想 。 


喇 
浊 | | 
| | 加 
1234 500 


荷 质 比 (m/e) 
图 7.10 化 合 物质 谱 图 


2. 实例 计算 


我 们 对 8 种 类 型 的 化 合 物 进 行 学 习 、 识 别 。 其 中 前 3 种 类 型 分 别 为 WLN 码 中 含 R、 
T60TJ 和 QR 的 化 合 物 ;后 5 种 为 日 内 瓦 国际 会 议 的 技术 报告 中 给 出 的 5 类 有 机 磷 化 合 物 ， 
前 3 种 类 型 化 合 物 的 训练 集 .测试 集 的 构造 方法 是 ,从 31231 例 质谱 中 选 出 某 类 所 有 化 合 物 
的 集合 TT ,剩余 的 两 类 成 为 集合 T,。。 从 TT 中 随机 抽出 一 定数 目的 化 合 物 构成 两 个 集合 
Tu、Tw ,再 从 T 中 随机 抽取 一 定数 目的 化 合 物 构 成 两 个 集合 Ta .Te ,用 Th 和 Ta 组 成 训 
练 集 , 正 例 PE= Th ,反例 NE 王 T2 ,用 Tis 和 Ts 组 成 测试 集 。 对 于 后 5 种 有 机 磷 化 合 物 ， 
上 述 31231 例 前 3 类 质谱 中 都 没有 , 按 类 输入 ,每 种 抽取 8 例 作 为 训练 集中 的 正 例 集 , 剩 下 
的 作为 测试 集 的 正 例 , 再 从 31231 例 质谱 中 抽出 999 例 作为 训练 集 反 例 集 , 得 出 如 表 7. 3 所 
示 的 训练 集 、 测 试 集 。 用 IBLE 学 习 后 得 出 8 棵 决策 规则 树 ( 在 此 省 略 ) ,对 测试 集 进行 识 
别 , 预 测 正确 率 如 表 7.4 所 示 。 

本 实验 中 ,预测 正确 率 是 这 样 计算 的 , 先 分 别 计算 正 、 反 例 的 预测 正确 率 ,然后 两 者 相 加 
除 以 2 得 出 总 预测 正确 率 ,这 种 做 法 在 实际 问题 中 可 信 程度 较 高 。 从 表 7.5 知道 ,对 8 类 化 
合 物 ,IBLE 的 平均 预测 正确 率 为 93. 967%。 


3. IBLE 与 ID3 的 比较 


(1) 实例 计算 情况 
为 了 比较 IBLE 与 ID3 在 正 、 反 例 数目 变化 情况 下 的 性 能 ,从 8 种 类 型 中 随机 抽取 3 
类 , 即 R、T60TJ 和 有 机 磷 化 合 物 中 的 第 二 类 进行 实验 。 两 种 算法 关于 3 种 化 合 物 的 平均 预 
测 正确 率 如 表 7. 5 所 示 。 可 以 看 出 ,预测 正确 率 IBLE 比 ID3 高 出 近 10%。 
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表 7.3 8 类 训练 物 的 训练 集 和 测试 集 


六 训练 集 测试 集 
正 例 反例 正 例 反例 
R 2363 2400 102 155 
QR 571 2000 20 100 
T60TJ 500 2300 50 50 
类 一 8 999 5 999 
类 二 8 999 5 999 
类 三 8 999 有 999 
类 四 8 999 4 999 
类 五 8 999 1 999 
表 7.4 IBLE 对 8 类 化 合 物 的 预测 结果 
类 正 例 认 对 认错 | 正确 /% | 反例 认 对 认错 | 正确 /% | 总 正确 /% 
R 102 95 这 93.137 155 136 19 87.774 | 90.439 
QR 20 15 5 全 100 84 16 84 79.5 
T60TJ 50 34 16 68 50 48 2 96 82 
类 一 5 5 0 100 999 997 2 99.8 99.9 
类 二 3 5 0 100 999 997 2 99. 8 99.9 
类 三 2 0 100 999 999 0 100 100 
类 四 4 4 0 100 999 999 0 100 100 
类 五 1 0 100 999 999 0 |100 100 
表 7.5 IBLE 和 ID3 的 平均 预测 正确 率 
类 IBLE/% ID3/% 
R 81.779 72. 203 
T60TJ 76.786 70. 643 
类 三 98. 334 89. 322 


对 IBLE 算法 ,在 训练 集中 正 、 反 例子 数目 做 大 的 变化 时 ,进行 测试 情况 如 表 7.6 所 示 。 
从 表 中 可 见 , 正 例 数 不 变化 ,反例 数 逐 步 减少 时 ,正确 识别 率 稍 有 提高 。 而 反例 数 不 变 , 正 例 
数 减少 时 ,正确 识别 率 显 著 下 降 。 正 、 反 例 都 下 降 时 ,正确 识别 率 在 逐步 下 降 。 


表 7.6 R 类 例子 数目 变化 时 识别 情况 


训练 集 对 正 例 对 反例 
正 例 反例 认 对 认错 正确 /% 认 对 认错 正确 /% 
2363 2400 95 " 93. 137 34 18 82. 353 
2363 1200 88 14 86. 275 834 18 82. 353 
2363 400 91 11 89. 216 99 3 97..059 
2363 200 98 4 96. 078 101 1 99.1 
2363 100 98 4 98. 078 101 1 99.1 
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续 表 


训练 集 对 正 例 对 反例 
正 例 反例 认 对 认错 “| 正确 /% | 认 对 认错 | 正确 /% 
2363 2400 95 7 99, 137 84 18 82. 353 
1181 2400 76 26 74.51 人 31 69. 608 
393 2400 68 34 66.667 46 56 45. 098 
196 2400 54 48 52. 941 35 67 34. 314 
98 2400 50 8 和 49. 02 24 78 23.520 
2363 2400 95 学 93. 137 84 18 82. 353 
393 400 75 27 73. 529 个 27 73.529 
196 200 87 15 85. 294 80 22 78. 431 
98 100 87 15 85. 294 70 32 68. 627 
(2) 原因 分 析 


IBLE 的 预测 正确 率 之 所 以 比 ID3 高 的 原因 在 于 : 

IBLE 用 信道 容量 作为 特征 选择 量 ,而 ID3 用 互信 息 , 信 道 容量 不 依赖 于 正 、 反 例 的 
比例 ,互信 息 依赖 训练 集中 正 反例 的 比例 。 

ID3 在 建树 过 程 中 ,每 次 选择 一 个 特征 作为 结 点 ,不 能 较 好 地 体现 特征 间 的 相关 性 。 
从 几何 角度 来 看 ,ID3 每 次 选择 一 个 特征 作为 结 点 ,在 多 维 空 间 中 等 于 每 次 利用 一 
个 与 某 坐 标 轴 垂 直 的 判定 面 ,这 样 做 不 能 充分 利用 训练 集 提供 的 信息 。IBLE 在 建 
树 过 程 中 每 次 循环 选择 多 个 特征 构成 规则 ,变量 间 的 相关 性 得 到 较 好 的 体现 。 从 几 
何 角度 来 看 每 次 利用 的 判定 面 可 以 具有 任意 的 方向 ,能 较 充 分 地 利用 训练 集 提供 的 
信息 。 

(3) IBLE 决策 规则 树 的 特点 

。 IBLE 的 决策 规则 树 中 的 规则 在 表示 和 内 容 上 与 专家 知识 具有 较 高 的 一 致 性 。 以 R 
( 茶 ) 的 决策 规则 树 中 第 一 条 规则 为 例 。 规 则 列 出 了 峰 系列 ,与 专家 知识 表示 是 一 致 
的 ,第 一 条 规则 指出 在 mm/e=27.50 一 52.62 一 65.74 一 78、89 一 92、104 一 105 处 应 有 
峰 。 有 关 文献 中 认为 含 茶 化 合 物 的 重要 系列 应 是 wm/e 王 38 一 39.50 一 52、.63 一 65、 
75 一 78、91、105、119、113 等 。 比 较 一 下 知道 ,在 列 出 的 这 16 个 峰 中 第 一 条 规则 包 
含 了 12 个 ,而 且 都 是 权 值 较 大 的 峰 。 专 家 知识 中 一 般 不 指出 哪些 地 方 应 无 峰 , 而 
IBLE 的 规则 中 也 指 了 出 来 ,这 是 对 专家 知识 的 一 种 补充 。 而 ID3 的 决策 树 在 表示 
上 与 专家 知识 的 相差 较 大 ,在 内 容 上 也 不 易 做 到 与 专家 知识 具有 一 致 性 (原因 在 于 
用 互信 息 选 择 主要 特征 依赖 于 训练 集中 正 、 反 例 的 比例 ,而 实际 问题 中 正 、 反 例 的 比 
例 不 易 确 定 ) 。 

在 训练 集中 , 若 正 、 反 例 数目 变化 较 大 ,IBLE 得 到 的 规则 具有 较 好 的 稳定 性 。 这 在 
R 的 训练 集中 正 、 反 例 数目 变化 较 大 的 情况 下 ,IBLE 得 出 的 各 决策 规则 树 中 第 一 条 
规则 ,都 含有 相同 的 41 个 特征 (m/e 二 41、42、43、50、51、54、55、56、57、58、59、62、63、 
64.65.67.68.69、70、71、72、75、76、77、78、81、82、83、84、85、89、90、91、92、96、97、 
98、100、104、105、143, 包 括 有 峰 、 无 峰 ) ,在 相同 的 变化 下 ID3 的 决策 树 头 两 层 7 个 
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重要 质量 中 ,无 共同 的 特征 。 
总 之 ,IBLE 的 规则 与 专家 知识 在 内 容 上 有 较 高 的 一 致 性 ,用 IBLE 获取 的 知识 建立 的 
专家 系统 对 实例 的 判别 进行 解释 时 提供 了 和 良好 的 条 件 。 这 一 点 正 是 ID3 的 一 个 重要 缺陷 。 
显然 ,IBLE 比 ID3 优越 。 


4. 小 结 


我 们 提出 的 机 器 学 习 的 信道 模型 ,系统 地 论述 了 示例 学 习 的 信息 论 ,利用 新 的 特征 选择 
量 一 一 信道 容量 , 即 用 信道 容量 来 选取 重要 特征 的 思想 ,不 仅 用 于 机 器 学 习 和 数据 挖掘 之 
中 ,也 可 以 用 于 模式 识别 的 特征 抽取 。 在 上 面 的 试验 中 ,对 8 类 化 合 物 的 质谱 分 类 问题 ,用 
神经 网 络 中 的 感知 机 和 反 向 传播 模型 进行 学 习 , 由 于 特征 太 多 ,两 种 方法 的 效果 都 极 差 , 利 
用 信道 容量 进行 特征 提取 后 ,再 用 感知 机 和 B-P 模型 学 习 , 都 取得 较 好 的 效果 。 感 知 机 的 
平均 预测 正确 率 为 79%,B-P 模型 的 平均 预测 正确 率 为 84%。 文 中 提出 的 示例 学 习 算 法 
IBLE 实现 简单 ,学习 正确 性 较 高 ,所 得 知识 在 表示 和 内 容 上 与 专家 知识 有 较 高 的 一 致 性 ， 
而 且 特 别 适 合 于 处 理 大 规模 的 学 习 问 题 ,可 作为 专家 系统 的 知识 获取 工具 。 


习 题 
1. 信息 论 的 基本 原理 是 什么 ? 
2. 学 习 信 道 模型 是 什么 ? 
3. 为 什么 机 器 学 习 和 数据 挖掘 可 以 利用 信息 论 原理 ? 
4. 自信 息 和 互信 息 的 含义 是 什么 ? 它们 的 计算 公式 是 什么 ? 
5. 信道 容量 的 含义 是 什么 ? 它 与 互信 息 有 什么 关系 ? 
6. 译 码 准则 的 基本 思想 是 什么 ? 
7. 决策 树 方法 的 基本 思想 是 什么 ? 
8. 说 明 ID3 方法 的 建树 算法 步骤 。 
9. 


设计 用 ID3 决策 树 进 行 实例 判别 的 判定 算法 。 

10. 编制 ID3 算法 的 计算 机 程序 ,并 用 表 7. 1 气候 训练 集 例 子 进行 测试 。 

11. 对 于 表 7. 1 气候 训练 集 , 用 CLS 方法 建树 : 任意 选 一 字段 项 (如 气温 ) 为 根 结 点 ,其 
字段 项 各 取 值 为 分 支 ,对 各 分 支 数 据 子 集 重复 上 述 操作 ,向 下 扩展 此 决策 树 , 直 到 数据 子 集 
属于 同一 类 数据 ( 即 叶 结 点 ) 为 止 ,并 标记 叶 结 点 为 P 类 或 N 类 。 

请 比较 CLS 决策 树 与 ID3 决策 树 的 优 缺点 。 

12. 对 表 7. 1 气候 训练 集中 ,对 “天 气 = 晴 ”的 数据 子 集 ,计算 各 特征 (天 气 、 气 温 、 湿 度 、 
风 ) 的 互信 息 是 多 少 ? 哪个 特征 的 互信 息 最 大 ? 

13. C4.5 方法 对 ID3 方法 的 改进 主要 体现 在 什么 地 方 ? 

14. 信息 增益 率 与 信息 增益 有 什么 不 同 ? 在 C4. 5 中 为 什么 使 用 信息 增益 率 作为 分 支 
标准 ? 

15. 在 C4.5 中 如 何 对 连续 属性 进行 处 理 ? 

16. IBLE 算法 用 什么 来 选择 重要 属性 构造 决策 规则 树 结 点 ? 
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17. IBLE 决策 树 的 表示 形式 是 什么 ? 比较 IBLE 决策 规则 树 和 ID3 决策 树 有 什么 
不 同 ? 

18. IBLE 决策 树 中 结 点 的 表示 形式 是 什么 ? 

19. 设 某 例子 集 的 IBLE 决策 规则 树 的 结 点 规则 为 : 


特征 a b d 
权 值 0.021 0.048 0. 282 0.282 
标准 值 1 1 2 多 
阅 值  S,= 0.564 S,= 0.585 

现 有 两 个 例子 的 特征 取 值 分 别 为 : 


4 一 1,0 一 2,c 一 2,d 一 2 

a=1,6=1,c=1,d=2 

请 用 该 结 点 规则 判别 它们 属于 {P 类、N 类 ,不 能 判别 } 中 的 哪 种 情况 ? 
20. 说 明 IBLE 决策 规则 树 中 结 点 中 闽 值 S, 和 Sv 求 解 的 思想 ? 

21. 说 明 IBLE 建 规则 算法 。 

22. 说 明 隐 形 眼 镜 简 例 中 @3 类 决策 规则 树 的 含义 。 

23. 说 明 从 简 例 中 @3 类 决策 规则 树 求 出 其 相应 的 逻辑 公式 。 

24. 请 说 明 IBLE 方法 比 ID3 方法 的 技术 进步 点 。 
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2 关公 SN 
党 8 章 ” 泥 合 论 方法 


8.1 粗糙 集 方法 


8.1.1 粗糙 集 概念 


粗糙 集 (rough set) 是 波兰 数学 家 Z. Pawlak 于 1982 年 提出 的 。 粗 糙 集 以 等 价 关 系 ( 不 
可 分 辨 关 系 ) 为 基础 ,用 于 分 类 问题 。 它 用 上 、 下 近似 两 个 集合 来 允 近 任意 一 个 集合 ,该 集合 
的 边界 线 区域 被 定义 为 上 近似 集 和 下 近似 集 之 差 集 。 上 、 下 近似 集 可 以 通过 等 价 关 系 给 出 
确定 的 描述 ,边界 域 的 元 素数 目 可 以 被 计算 出 来 。 而 模糊 集 (fuzzy) 是 用 隶属 度 来 描述 集合 
边界 的 不 确定 性 ,隶属 度 是 人 为 给 定 的 ,不 是 计算 出 来 的 。 

粗糙 集 理论 用 在 数据 库 中 的 知识 发 现 主 要 体现 在 : 

(1) 利用 等 价 关系 对 数据 库 进 行 属性 约 简 。 

(2) 利用 集合 的 上 、 下 近似 关系 获取 分 类 规则 。 


1. 基本 定义 


(1) 信息 表 定 义 

信息 表 S=(U,R,V ,了 ) 的 定义 如 下 。 

U: 是 一 个 非 空 有 限 对 象 (元 组 ) 集 合 ,0 二 {x1 ,zs，,… ,x,} ,其 中 zi 为 对 象 ( 元 组 )。 

R: 是 对 象 的 属性 集合 , 分 为 两 个 不 相交 的 子 集 , 即 条 件 属性 C 和 决策 属性 DD， 
R=CUD. 

V: 是 属性 值 的 集合 ,V。 是 属性 a ER 的 值 域 。 

f: 是 UXR>V 的 一 个 信息 函数 , 它 为 每 个 对 象 x 的 每 个 属性 a 赋予 一 个 属性 值 , 即 
a€ER,rEU, f(x)EV,.。 

(2) 等 价 关 系 定义 

对 于 VaE A(A 中 包含 一 个 或 多 个 属性 ) ,ACR,zEU,yEU, 它 们 的 属性 值 相同 , 即 


PCz) 王 万 (y) (8.1) 
成 立 , 称 对 象 x 和 y 是 对 属性 A 的 等 价 关 系 , 表 示 为 
IND(A) = {(zx,y) | (xz,y) E UXU,Va€ A,felzr) = f(y)} (8. 2) 


(3) 等 价 类 定义 
在 U 中 ,对 属性 集 A 中 具有 相同 等 价 关 系 的 元 素 集 合 称 为 等 价 关系 IND(A) 的 等 价 
[zja = {y | (zx,y) € IND(A)} (8. 3) 
(4) 划分 的 定义 
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在 U 中 对 属性 A 的 所 有 等 价 类 形成 的 划分 表示 为 


A= {Ei | B= [Lz] i= (8.4) 
具有 特性 : 
© 已 和 6。 
@ 当 ij 时 ,EME,=®。 
@U=UE,. 


例 1 设 U={a( 体 温 正常 ),b( 体 温 正 常 ),c( 体 温 正常 ),d (体温 高 ),e( 体 温 高 ),/( 体 
温 很 高 )} ,对 于 属性 A( 体 温 ) 的 等 价 关 系 有 : 
IND(A) = {(a,b),(a,c), (b,c),(d,e), (esd),(asa),(b,b),(c,c),(d,d),(e,e),(f,f))} 
属性 A 的 等 价 类 有 : 
E = [aja = [6]a = [cja = {a,b,c)} 
E, = [aja Leja = {d,e} 
E; = [fja = {f} 
U 中 对 属性 A 的 划分 为 
A= {E,E,E} = {({a,b,c},{d,e},{f)} 


2. 集合 X 的 上 .下 近似 关系 


(1) 下 近似 定义 
对 任意 一 个 子 集 XSU ,属性 A 的 等 价 类 EE,;=[zxjs, 有 
A_ (X) =U {E,| EE AA ECSX} (8.5) 
或 
A_ (X) = {z| [zja SX} (8.6) 
表示 等 价 类 E,= 二 [zxja 中 的 元 素 z 都 属于 X, 即 YzEA_(X), 则 > 一 定 属于 X。A_(X) 表 
示 下 近似 。 
(2) 上 近似 定义 
对 任意 一 个 子 集 XSU, 属 性 A 的 等 价 类 下 王 [z]a, 有 
A- (X)=U {E| EEAANENXD) (8.7) 
或 
A-(X)= {zr|[zjN XA GD} (8. 8) 
表示 等 价 类 E, 二 [zx] 中 的 元 素 x 可 能 属于 X, 即 YzEA-(X), 则 x 可 能 属于 X, 也 可 能 不 
属于 X。A-(X) 表 示 上 近似 。 
(3) 正 域 . 负 域 和 边界 的 定义 
全 集 U 可 以 划分 为 3 个 不 相交 的 区 域 , 即 正 域 (Posa ) 、 负 域 (NEGa) 和 边界 (BNDa): 


Posa(X) = A_ (X) (8.9) 

NEGA(X) =U—A (X) (8.10) 

BNDA(X)= A (X)—A_ (XxX) C8. 11) 
由 此 可 见 : 

A  (X) = A_ (X)++BNDa(X) C68: 12) 
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用 图 8. 1 说 明正 域 . 负 域 和 边界 ,每 一 个 小 


长 方形 表示 一 个 等 价 类 。 NEG(X) 

从 图 8. 1 中 可 以 看 出 ,任意 一 个 元 素 zxE [~ 
Pos(X), 一 定 属于 X; 任意 一 个 元 素 x€ es 
=4 00) 


NEG(X) ,一 定 不 属于 X; 集 合 X 的 上 近似 是 其 
正 域 和 边界 的 并 集 , 即 
A- (X) = Posa(X) U BNDA(CX) (8.13) | -| -BNDOD) 
对 于 元 素 z€ BND(X), 是 无 法 确定 其 是 否 ” 同 |; EE 域 ” 轧 : 负 域 : 边界 
属于 X, 因 此 对 任意 元 素 zxEA- (X), 只 知道 z 
可 能 属于 X。 
(4) 粗糙 集 定 义 
若 A-(X)= 二 A-(X), 即 BND(X)==@, 即 边界 为 空 , 称 久 为 A 的 可 定义 集 ; 和 否则 X 为 A 
不 可 定义 的 , 即 A-(X) 取 A_(X), 称 XX 为 A 的 rough 集 (粗糙 集 ) 。 
(5) 确定 度 定义 


[三 过 


图 8.1 正 域 . 负 域 和 边界 


IUI-|A- xX-A_X| 
IU| 
其 中 IU| 和 |A-X 一 A_X| 分 别 表示 集合 U、(A-X 一 A_X) 中 的 元 素 个 数 。 
aa(X) 的 值 反映 了 U 中 的 能 够 根据 A 中 各 属性 的 属性 值 就 能 确定 其 属于 或 不 属于 X 
的 比例 ,也 即 对 口中 的 任意 一 个 对 象 ,根据 A 中 各 属性 的 属性 值 确定 它 属于 或 不 属于 X 的 
可 信 度 。 
确定 度 性 质 ， 


aa(X) = (8. 14) 


0 和 ao(CX) 委 1 (8. 15) 

(1) 当 aa(CX)=1 时 ,U 中 的 全 部 对 象 能 够 根据 A 中 各 属性 的 属性 值 就 可 以 确定 其 是 
否 属于 X,X 为 A 的 可 定义 集 。 

(2) 当 0<aa(X)<1 时 ,U 中 的 部 分 对 象 根据 A 中 各 属性 的 属性 值 可 以 确定 其 是 否 属 
于 X ,而 另 一 部 分 对 象 是 不 能 确定 其 是 否 属于 X。X 为 A 的 部 分 可 定义 集 。 

(3) 当 aa(X)==0 时 ,U 中 的 全 部 对 象 都 不 能 根据 A 中 各 属性 的 属性 值 确定 其 是 否 属 
于 X,X 为 A 的 完全 不 可 定义 集 。 

当 义 为 A 的 部 分 可 定义 集 或 X 为 A 的 完全 不 可 定义 集 时 , 称 久 为 A 的 rough 集 ( 粗 
糙 集 ) 。 

例 2 对 例 1 的 等 价 关系 A 有 集合 X 一 {2,c, 户 是 粗糙 集 , 计 算 集 合 X 的 下 近似 、 上 近 
似 、 正 域 . 负 域 和 边界 。 

U 中 关于 A 的 划分 为 

A= {{a,bsc},{d,e},{f}} 


可 知 有 : 
A_(X)= (用 
A- (X) = {asbsc} U {f} = (aoc 
Posa(X) = A_ (X) = {有 } 
NEGA(X) =U— A- (X) = {d,e} 
BNDa(X) = A- (X)—A_ (X) = {a,b,c} 


8.1.2 属性 约 简 的 粗糙 集 理 论 


1. 属性 约 简 概念 


在 信息 表 中 根据 等 价 关系 ,可 以 用 等 价 类 中 的 一 个 对 象 (元 组 ) 来 代表 整个 等 价 类 ,这 实 
际 上 是 按 纵 方向 约 简 了 信息 表 中 的 数据 。 对 信息 表 中 的 数据 按 横 方向 进行 约 简 就 是 看 信息 
表 中 有 无 元 余 的 属性 , 即 去 除 这 些 属性 后 能 保持 等 价 性 ,从 而 有 相同 的 集合 近似 ,使 对 象 分 
类 能 力 不 会 下 降 。 约 简 后 的 属性 集 称 做 属性 约 简 集 , 约 简 集 通常 不 惟一 ,找到 一 个 信息 表 的 
所 有 约 简 集 不 是 一 个 在 多 项 式 时 间 里 所 解决 的 问题 , 求 最 小 约 简 集 ( 含 属 性 个 数 最 少 的 约 简 
集 ) 同 样 是 一 个 困难 问题 ,实际 上 它 是 一 个 NP-hard 问题 。 因 此 研究 者 提出 了 很 多 启发 式 
算法 ,如 基于 遗传 算法 的 方法 等 。 

(1) 约 简 定义 

给 定 一 个 信息 表 IT(U,A) , 若 有 属性 集 BCA, 且 满足 IND(B)==IND(A), 称 B 为 A 的 
一 个 约 简 , 记 为 red(A), 即 


B= red(A) (8.16) 
(2) 核定 义 
属性 集 A 的 所 有 约 简 的 交集 称 为 A 的 核 。 记 作 
core(A) = red(A) (8. 17) 


core(A) 是 A 中 为 保证 信息 表 中 对 象 可 精确 定义 的 必要 属性 组 成 的 集合 ,为 A 中 不 能 约 简 
的 重要 属性 ,是 进行 属性 约 简 的 基础 。 
上 面 的 约 简 定 义 没有 考虑 决策 属性 , 现 研 究 条 件 属 性 C 相对 决策 属性 D 的 约 简 。 
(3) 正 域 定义 
设 决策 属性 DD 的 划分 A 三 (yi1,ys，…，,y,) ,条 件 属性 C 相对 于 决策 属性 了 的 正 域 定 
义 汶 
Posc(D) =U C_ (y;) (8. 18) 
(4) 条 件 属性 C 相对 于 决策 属性 DD 的 约 简 定义 
若 cEC, 如 果 Posc-to CD)=Posc(CD), 则 称 c 是 C 中 相对 于 了 不 必要 的 , 即 可 约 简 
的 ,否则 称 c 是 C 中 相对 于 了 必要 的 。 
(5) 条 件 属性 C 相对 于 决策 属性 的 核定 义 
若 RSC, 如 果 尺 中 每 一 个 cER 都 是 相对 于 D 必要 的 , 则 称 R 是 相对 于 D 独立 的 。 如 
果 尺 相对 于 DD 独立 的 , 且 Pose (D) 二 Posc(D), 则 称 R 是 C 中 相对 于 DD 的 约 简 , 记 为 
redp(C), 所 有 这 样 约 简 的 交 称 为 C 的 D 核 , 记 为 
corep(C) 一 站 redp(CC) (8. 19) 
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一 般 情 况 下 ,信息 系统 的 属性 约 简 集 有 多 个 ,但 约 简 集中 属性 个 数 最 少 的 最 有 意义 。 
2. 属性 约 简 实例 


气候 信息 表 是 4 个 条 件 属性 (天 气 a1, 气 温 a ,湿度 as, 风 as) 和 1 个 决策 属性 (类 别 
d) ,如 表 8.1 所 示 。 


表 8.1 气候 信息 表 
No. 天 气 w 气温 az 湿度 as 风 as 类 别 d 
1 哺 热 高 无 风 N 
2 哺 热 高 有 风 N 
3 多 云 热 高 无 风 PF 
4 雨 适中 高 无 风 P 
5 雨 冷 正常 无 风 P 
6 雨 冷 正常 有 风 N 
多 云 冷 正常 有 风 P 
哺 适中 高 无 风 N 
9 哺 冷 正常 无 风 P 
10 十 适中 正常 无 风 P 
下 哺 适中 正常 有 风 P 
12 多 云 适中 高 有 风 P 
13 多 云 热 正常 无 风 P 
14 雨 适中 高 有 风 N 


令 C={al ,az ydasy ai ，D 一 {d) 
则 : INDCC)={{1},{2),{3},{(4},{5},{6},{7},{8},{9),{10},{11}, {12},{(13}, {14}} 

IND(D)={{1,2,6,8,14},{3,4,5,7,9,10,11,12,13}} 

Posc(D)=U 

(1) 计算 缺少 一 个 属性 的 等 价 关 系 : 

IND(C\{a1})={{1,3},{2},{4,8},{5,9},{6,7},{10},{11},{12,14},{13}} 

INDCC\{az})={{1,8},{2),{3},{4},{5,10},{6),{7},(9},{11},{12}, {13}), {14)} 

IND(GCN as = (2 (9 l(t te (7 0 tll} 1 {1 
{14)} 

IND(C\{a})={{1,2),{3},{4,14},{5,6},{7},{8},{9},{10),{11}), {12},{13)} 

计算 减少 一 个 条 件 属性 相对 决策 属性 的 正 域 : 

Poscelub (D)={2,5,9,10,11,13}AU 

Posccloeb (D)=U= Posc(D) 

Poswa,» (D)=U= Posc(D) 

Poscuan (D)={1,2,3,7,8,9,10,11,12,13}AU 

由 此 可 知 ,属性 cs .os 是 相对 于 决策 属性 d 可 省 略 的 ,但 不 一 定 可 以 同时 省 略 , 而 属性 
和 a 是 相对 决策 属性 不 可 省 略 的 ,因此 : 
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core(C) = {alyas)} 
(2) 计算 同时 减少 {as ,as } 的 等 价 关 系 和 正 域 : 
IND(CN\(ammaly = ( (1,859) {211} 03313} (45,10} ,6714}, {17,12}} 
Poscave, sb (D) = {3,4,5,6,7,10,12,13,14} 天 吕 
说 明 {a; ,as } 同 时 是 不 可 省 略 的 。 
(3) 在 {as ,as } 中 只 能 删除 一 个 属性 , 即 存在 两 个 约 简 : 
redp(C) = {{aisas yas} {asas a4}} 
从 实例 计算 可 以 看 出 ,信息 表 的 属性 约 简 是 在 保持 条 件 属 性 相对 决策 属性 的 分 类 能 力 
不 变 的 条 件 下 ,删除 不 必要 的 或 不 重要 的 属性 。 一 般 来 讲 , 条 件 属性 对 于 决策 属性 的 相对 约 
简 不 是 惟一 的 , 即 可 能 存在 多 个 相对 约 简 。 


3. 信息 表 的 一 致 性 


信息 表 中 的 对 象 (元 组 )z 按 条 件 属性 与 决策 属性 关系 看 成 一 条 决策 规则 ,写成 
A fe (zx) > falz) (8. 20) 

其 中 C; 表示 多 个 条 件 属性 ,d 表示 决策 属性 , fc (z) 表 示 对 象 x 在 属性 C; 的 取 值 ,入 表示 
逻辑 “与 ”关系 。 

(1) 一 致 性 决策 规则 定义 

如 果 对 任 一 个 对 象 y 冯 zx, 车 条 件 属性 有 fc (xz) 二 fc (y), 则 决策 属性 必须 有 

falz) = faly) 

即 一 致 性 决策 规则 说 明 条 件 属性 取 值 相同 时 ,决策 属性 取 值 必须 相同 。 

该 定义 允许 : 若 条 件 属性 有 fc (z) 取 fc (y), 则 决策 属性 可 以 是 fa(x)== fa(y) 或 
记 (z) 天 户 (y)。 

(2) 信息 表 一 致 的 定义 

在 信息 表 中 如 果 所 有 对 象 的 决策 规则 都 是 一 致 的 , 则 该 信息 表 是 一 致 的 ,否则 信息 表 是 
不 一 致 的 。 

例如 一 个 不 一 致 信息 表 ( 见 表 8. 2) ,属性 集 A=CUD 其 中 条 件 属性 C= {a,p,c} ,决策 
属性 D= {4d,e}。 


表 8.2 不 一 致 信息 表 
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不 一 致 信息 表 分 解 为 一 致 信息 表 ( 见 表 8. 3) 和 完全 不 一 致 信息 表 ( 见 表 8.4) 。 
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表 8.3 一 致 信息 表 


U a b 这 d e 
3 2 0 0 1 1 
4 1 下 0 2 2 
6 2 2 0 1 1 
7 2 1 1 1 2 
表 8.4 完全 不 一 致 信息 表 
U a b c d e 
1 1 0 2 2 0 
2 0 1 1 1 2 
5 全 0 2 0 1 
8 0 1 1 0 1 


4. 保持 信息 表 一 致 性 的 属性 约 简 和 属性 值 约 简 


信息 表 的 简化 一 般 有 属性 约 简 ( 约 去 不 必要 的 属性 ) 和 属性 值 约 简 ( 消 去 一 些 无 关 紧 要 
的 属性 值 ) 。 

(1) 属性 约 简 定义 

在 信息 表 中 ,将 属性 集中 的 属性 逐个 移 去 ,每 移 去 一 个 属性 即 检查 其 信息 表 , 如果 保持 
一 致 性 , 则 该 属性 是 可 约 去 的 。 如 果 出 现 不 一 致 则 该 属性 不 能 被 约 去 。 不 能 约 去 的 属性 集 
合 称 为 条 件 属 性 的 核 。 

例如 ,有 一 致 信息 表 8. 5。 


U a b d e 
1 1 0 2 1 1 
2 2 1 0 1 0 
3 2 1 2 0 2 
4 1 2 2 1 1 
5 1 2 0 0 2 


在 表 8. 5 中 移 去 属性 a 得 表 8. 6, 它 也 是 一 致 的 。 在 表 8. 5 中 移 去 属性 45 得 表 8.7, 它 
也 是 一 致 的 。 


表 8.6 一 致 信息 表 2 
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表 8.7 一 致 信息 表 3 


U a 3 d e 
1 1 2 1 1 
2 2 0 1 0 
3 2 2 0 2 
4 1 2 1 1 
5 到 0 0 2 
表 8.8 不 一 致 信息 表 
U a b d e 
1 LF 0 1 
2 2 1 1 0 
3 2 1 0 2 
4 1 2 1 1 
5 1 2 0 2 


在 表 8. 5 中 移 去 属性 c, 得 表 8. 8, 它 是 不 一 致 的 。 因 为 第 2 条 规则 asb 一 dieo。 和 第 3 条 
规则 as6 一 does 是 矛盾 的 。 同 样 第 4 条 规则 和 第 5 条 规则 也 是 不 一 致 的 。 故 属性 c 是 不 可 
约 去 的 , 它 是 属性 集 {a, b,c} 中 的 核 , 而 a 和 4 都 是 可 被 约 去 的 ,由 此 得 到 两 个 约 简 : 

redi(A)= {ayc} 和 red;(A) = {b,c} 

(2) 属性 值 约 简 命 题 

一 条 决策 规则 的 条 件 属性 值 可 消去 , 当 且 仅 当 消去 后 仍 保持 此 规则 的 一 致 性 。 

例如 ,有 信息 表 ( 见 表 8.9) ,其 中 U={1,2,3,4,5} ,C={a,b,c},D={d,e}。 


表 8.9 信息 表 
U a b < d e 
1 1 0 2 1 1 
2 2 1 0 2 0 
3 2 1 2 0 2 
4 1 2 2 1 1 
5 1 2 0 0 2 


对 表 8. 9 信息 表 的 决策 规则 有 : 

© apoc: 一 de 

© abco 一 daeo 

©@ abc 一 doe> 

@ apcz 一 dei 

© absco>does 

注 : a; 即 a=i(i==1,2); b; 即 6==j(j = 二 0,1,2); 其 他 类 同 。 

逐条 检查 规则 ,与 其 他 条 规则 不 存在 条 件 属 性 值 相同 , 故 信 息 表 是 一 致 的 。 

对 第 一 条 规则 aipcs 一 diei 中 消去 如 值 ( 即 取 为 * ) ,与 其 他 条 规则 中 属性 5 的 取 值 不 
TDs 


匹配 , 即 wa x cz 一 diei 或 uc 一 diel ,与 其 对 应 的 规则 为 : 

Dam—die 

© aco 一 daeo 

© azcz 一 does 

@ ac 一 de 

© aico 一 doe: 

巴 规 则 和 由 规则 的 条 件 属 性 取 值 相同 ,决策 属性 取 值 也 相同 ,保持 一 致 , 故 该 属性 值 可 
消去 。 

同样 ,对 第 一 条 规则 aibocz 一 dieil 消去 c: 值 , 即 ab * 一 diel 或 ab 加 一 diei; 以 及 消去 
qa 值 , 即 x* bocs>diel 或 pcs 一 diei, 均 保持 规则 的 一 致 性 。 可 见 这 条 规则 @ 的 核 是 空 集 , 即 
3 个 属性 值 a .oo 、cs 均 可 被 消去 。 

继续 检查 规则 @azb1co 习 dzeo , 它 与 aco 一 daeo( 消 去 请) 和 co 一 daeo( 消 去 as) 保 持 一 
致 ,而 asby>dzeo( 消 去 co) 与 @ 巴 盾 , 所 以 属性 加 和 as 可 消去。 

同 理 ,@、@ 和 @ 中 的 和 cs 分 别 在 其 相应 的 规则 中 不 能 被 消去 ,而 其 余 在 其 相应 的 
规则 中 均 可 被 消去 。 经 过 如 此 属性 值 约 简 后 ,得 到 下 面 适 合 每 条 规则 的 核 表 ,如 表 8. 10 
所 示 。 


表 8.10 仅 包含 决策 规则 核 值 


b 


how 
* * 来 水 来 S 
* * 来 * 来 

De rrln 
oom-|o 
PD Mor|is 


对 表 中 每 一 条 的 * 并 不 是 全 部 消去 而 是 可 选 消去 ,具体 消去 哪个 * , 按 如 下 命题 处 理 。 
(3) 决策 规则 约 简 命题 
属性 集 C 中 任意 最 小 属性 a 的 等 价 类 [z]. 的 交集 属于 相应 决策 属性 D 的 等 价 类 
[zj]o, 即 
El Eils 
则 由 此 得 到 的 最 小 条 件 属性 a 组 成 的 条 件 相 应 决策 属性 的 新 决策 规则 是 该 条 决策 规则 的 
约 简 。 
例如 ,对 表 8. 9 参照 表 8. 10, 求 每 一 条 决策 规则 的 约 简 。 
。 第 一 条 规则 的 约 简 。 其 决策 类 [1ji.s =={1,4};[1]。={1,4,5};[1j.=={1,3,4}。 显 
然 ,[1j, 人 CE[1Ji.s 和 [1j.CF[1jwaa :但 [1j,={1}S[ljw,; 和 [1J, NL1J.={1,4}S 
[1jw.w ,所 以 得 到 两 条 约 简 的 决策 规则 : 
ly >des lL :a=dia 
。 第 二 条 规则 的 约 简 。 其 决策 类 是 [2]te,。 = {2);[2],={2,3});[2],={2,3);[2].= 
{2,5} ,显然 有 : 
.171 ， 


[2]。 站 [2].={2}S[L2]wo ,L2j, NL2].={2} EL2ja.0 
得 到 两 条 约 简 规则 : 
2; ez6 一 deo3 2: bco—*dséo 
同样 可 得 ,3、4、5 条 规则 的 约 简 ,它们 分 别 为 : 
3: azcz 一 doez; 3 : bcz 一 does 
4: aicz 一 dieii 4 :pc 一 del 
5: aico 一 doez; 5 : poco 一 does 
所 有 约 简 的 决策 规则 如 表 8. 11 所 示 。 

表 8.11 包含 所 有 约 简 决策 规则 


U a b 3 d e 
1 x 0 关 1 1 
业 1 x 2 1 1 
多 2 x 0 可 0 
2 x 1 0 2 0 
3 2 * 2 0 2 
3/ * 1 2 0 2 
4 1 * 2 1 1 
4 # 2 2 1 1 
5 1 * 0 0 2 
部 # 2 0 0 2 


注 : 1 和 4 规则 相同 ,可 以 合并 。 


8.1.3 属性 约 简 的 粗糙 集 方 法 
1. 属性 依赖 度 


(1) 属性 依赖 度 定义 
信息 表 中 决策 属性 D 依赖 条 件 属性 C 的 依赖 度 定义 为 
x(C,D) =| Posc(D) | /1UI1 (8.21) 
其 中 |Posc(D) | 表示 正 域 Posc(D) 的 元 素 个 数 , 1U | 表示 整个 对 象 集合 的 个 数 。y(C,D) 的 
性 质 如 下 : 
@ 若 Y=1, 意 味 着 IND(C)SCIND(D), 即 已 知 条 件 C 下 ,可 将 U 上 全 部 个 体 准 确 分 类 
到 决策 属性 D 的 类 别 中 去 , 即 D 完全 依赖 于 C。 
@ 若 0 二 y=<1, 则 称 D 部 分 依赖 于 CCD rough 依赖 于 C) , 即 在 已 知 条 件 C 下 ,只 能 将 
U 上 那些 属于 正 域 的 个 体 分 类 到 决策 属性 D 的 类 别 中 去 。 
@ 若 7=0, 则 称 D 完全 不 依赖 C, 即 利用 条 件 C 不 能 分 类 到 D 中 的 类 别 中 去 。 
(2) 相关 命题 
根据 属性 依赖 度 定 义 , 可 以 得 到 如 下 命题 。 
命题 1 如 果 依赖 度 y=1. 则 信息 表 是 一 致 的 .否则 是 不 一 致 的 。 
命题 2 每 个 信息 表 都 能 惟一 地 分 解 成 一 个 一 致 信息 表 (7==1) 和 一 个 完全 不 一 致 信息 
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表 (y=0)。 


2. 属性 重要 度 


(1) 属性 重要 度 定义 
C,DCA,C 为 条 件 属性 集 ,D 为 决策 属性 集 ,a€ C, 属 性 a 关于 DD 的 重要 度 定义 为 
SGF(a,C,D) = Y(C,D) —7Y(C— {a},D) (8. 22) 

其 中 y(C 一 {a},D) 表 示 在 C 中 缺少 属性 a 后 ,条 件 属 性 与 决策 属性 的 依赖 程度 。SGF (a， 
C,D) 表 示 C 中 缺少 属性 a 后 ,导致 不 能 被 准确 分 类 的 对 象 在 系统 中 所 占 的 比例 。 

(2) SGF(a,C,D) 的 性 质 

@ SGF(a,C,D)E[0,1]。 

@ 若 SGF(a,C,D)=0, 表 示 属 性 关于 D 是 可 省 的 。 因 为 从 属性 集中 去 除 属性 a 后 ， 
C 一 {a) 中 的 信息 仍 能 准确 划分 到 各 决策 类 中 去 。 

@ SGF(a,C,D) 考 0, 表示 属性 a 关于 DD 是 不 可 省 的 。 因 为 从 属性 集 C 中 去 除 属性 a 
后 , 某 些 原来 可 被 准确 分 类 的 对 象 不 再 被 准确 划分 。 


3. 最 小 属性 集 概念 


对 信息 系统 的 最 广泛 应 用 是 数据 库 。 在 数据 库 中 根据 决策 属性 将 一 组 对 象 划分 为 各 不 
相交 的 等 价 集 ( 决 策 类 ) ,希望 能 通过 条 件 属性 来 决定 每 一 个 决策 类 ,并 产生 每 一 个 类 的 判定 
规则 。 大 多 数 情况 下 ,对 每 个 给 定 的 学 习 任务 ,数据 库 中 存在 一 些 不 重要 属性 ,希望 找到 一 
个 最 小 的 相关 属性 集 ,具有 与 全 部 条 件 属性 同样 的 区 分 决策 属性 所 划分 的 决策 类 的 能 力 , 从 
最 小 属性 集中 产生 的 规则 会 更 简练 和 更 有 意义 。 

最 小 属性 集 定义 : 设 C.D 分 别 是 信息 系统 S 的 条 件 属性 集 和 决策 属性 集 ,属性 集 
P(PSC) 是 C 的 一 个 最 小 属性 集 , 当 且 仅 当 Y(P,D)==Y(C,D) 并 且 YP'CP,Y(P',D) 关 
Y(P,D) ,说 明 若 已 是 C 的 最 小 属性 集 , 则 已 具有 与 C 同样 的 区 分 决策 类 的 能 力 。 

需要 注意 的 是 .C 的 最 小 属性 集 一 般 是 不 惟一 的 ,而 要 找到 所 有 的 最 小 属性 集 是 一 个 
NP 问题 。 在 大 多 数 应 用 中 ,没有 必要 找到 所 有 的 最 小 属性 集 。 用 户 可 以 根据 不 同 的 原则 
来 选择 一 个 认为 最 好 的 最 小 属性 集 。 比 如 ,选择 具有 最 少 属性 个 数 的 最 小 属性 集 。 


8.1.4 ”粗糙 集 方 法 的 规则 获取 


通过 分 析 U 中 的 两 个 划分 C= 二 {E;} 和 D= 二 {Y;) 之 间 的 关系 ,把 C 视 为 分 类 条 件 ,D 视 
为 分 类 结论 ,可 以 得 到 下 面 的 分 类 规则 : 

(1) 当 ENY, 关 多 时 , 则 有 : 

ry: Des(E;) —> Des(Y,;) (8. 23) 

Des(E;) 和 Des(Y;) 分 别 是 等 价 集 E; 和 等 价 集 Y; 中 的 特征 描述 。 

@ 当 ENY; 二 FE; 时 (E; 完 全 被 7 包含 ) , 即 下 近似 ,建立 的 规则 xj 是 确定 的 ,规则 的 可 信 
度 cf=1.0。 

@ 当 ENY; 隆 E; 时 (Ei; 部 分 被 Yj; 包含) , 即 上 近似 ,建立 的 规则 x 是 不 确定 的 ,规则 的 可 
信和 度 为 

;> 


| 
ef (8.24) 


用 图 8. 2 表示 E; 和 YY; 的 上 、 下 近似 关系 。 
(2) 当 ENnY;== 名 时 (Ei; 不 被 Yj 包含),E; 和 Yj; 不 
能 建立 规则 。 图 8.2 EE 和 Yj 的 上 、 下 近似 关系 
8.1.5 粗糙 集 方 法 的 应 用 实例 
通过 实例 说 明 属 性 约 简 和 规则 获取 方法 , 见 表 8. 12 的 数据 。 
表 8.12 流感 实例 数据 


项 目 C( 条 件 属性 ) 了 (决策 属性 
U 头痛 (a) 肌肉 痛 (5) 体温 (c) 流感 (d) 
el 是 (1) 是 (1) 正常 (0) 否 (0) 
es 是 (1) 是 (1) 高 (1) 是 (1) 
es 是 (1) 是 (1) 很 高 (2) 是 (1) 
en 否 (0) 是 (1) 正常 (0) 否 (0) 
es 否 (0) 否 (0) 高 (1) 否 (0) 
es 否 (0) 是 (1) 很 高 (2) 是 (1) 
er 是 (1) 否 (0) 高 (1) 是 (1) 


1. 等 价 集 下 近似 和 依赖 度 的 计算 


(1) 条 件 属性 C(a,65,c) 的 等 价 集 

由 于 各 元 组 (对 象 ) 之 间 不 存在 等 价 关 系 , 每 个 元 组 组 成 一 个 等 价 集 , 共 7 个: 
万 

(2) 决策 属性 D(d) 的 等 价 集 

按 属性 取 值 ,共有 两 个 等 价 集 : Yi : {el ,el ,es};Ys: {ez,es,esyey)。 
(3) 决策 属性 的 各 等 价 集 的 下 近似 集 
CY={E,E,,Es}={e,e, ses} 

C_Y,={E;,,E;,Es,E}= {ez ,es ,es er} 

此 例 不 存在 上 近似 集 。 

(4) 计算 Pos(C,D) 和 7Y(C,D) 

Pos(C,D)=C YUC Ys= {ei,es ,sesse es ,esser} 
|Pos(C,D)|=7,IU|=7,7(C,D)=1 


2. 各 属性 重要 度 计算 


(1) a 的 重要 度 计算 
。 条件 属 性 C(5,c) 的 等 价 集 : 
Ei{eives},E,{es},Es{es,eo},E{es,er} 
。 决策 属性 D(d ) 的 等 价 集 仍 为 和 YY, 。 
*，174。 


。 决策 属性 的 各 等 价 集 的 下 近似 集 : 
CY= {EE}= {ee} 
CY; = {E,,Es} = {ez ,es ,ee} 

。 计算 Pos(C 一 {a},D) 和 YY(C 一 {a},D): 

Pos(C—{a},D)= CY, UCY,= {ei,es,es ,eses) 

| Pos(C—t{a},D)|=5 

YC— {a},D) = 5/7 
。 属性 a 的 重要 程度 : 

SGF(C—{a},D)=7(C,D)—7Y(C—{a},D)=2/7@A0 
。 结论 : 属性 a 是 不 可 省 略 的 。 
(2) 2 的 重要 度 计算 
。 条件 属性 C(a,c) 的 等 价 集 : 去 掉 属性 5 后 ,元 组 中 只 出 现 ee 和。 的 等 价 ,其 他 元 组 

均 不 等 价 , 等 价 集 共 6 个: 
Ei{lei},E,{es,er} ,Esles}, Ele,} ,Esles}, Eee} 
。 决策 属性 D(d) 的 等 价 集 仍 为 Y， 和 YY, 。 
。 决策 属 性 的 各 等 价 集 的 下 近似 集 : 
CYi= {E, E,Es} = (el,es,es) 
CY, = {E,, Es, Ee} = 〈ezyeyyesye6) 
。 计算 Pos(C 一 {6},D): 
Pos(C— {6b},D) = CY, UCY,= (ei,esses,e res ,e607) 
| Pos(C— {86},D) |= 7,7(C—{a},D)=1 
。 属性 2 的 重要 度 : 
SGF(C—{6},D)=7Y(C,D)—7(C—{a},D)=0 

。 结论 : 属性 5 是 可 省 略 的 。 


3. 简化 数据 表 


在 原 数 据 表 中 删除 肌肉 痛 (5) 属 性 后 ,元 组 e; 和 es 相同 ,合并 成 表 8. 13 所 示 的 简化 
数据 表 。 


表 8.13 流感 数据 简化 表 


U 头痛 (a) 体温 (c) 流感 (d) 
el 是 (1) 正常 (0) 否 (0) 
ez” 是 (1) 高 (1) 是 (1) 
es 是 (1) 很 高 (2) 是 (1) 
本 否 (0) 正常 (0) 否 (0) 
es” 否 (0) 高 (1) 否 (0) 
es” 否 (0) 很 高 (2) 是 (1) 


a 


4. 等 价 集 、 上 下 近似 集 的 计算 


(1) 条 件 属性 的 等 价 集 

由 于 各 元 组 之 间 不 存在 等 价 关系 , 故 有 6 个 等 价 集 : El {e1'}, Es {es }), Es (es )， 
BE (0 DE {es Ee (ee 

(2) 决策 属性 DCd) 的 等 价 集 

按 属性 取 值 ,共有 两 个 等 价 集 Yi (ee ,es } 和 Y2 (ez ,es ,es )。 


5. 获取 规则 


图 8.3 是 玖 与 Ei、E4、Es 最 小 包含 图 。 

(1) 由 于 EINYi=Ei,EiNY1=E,E! 几 Yi 二 El, 有 规则 
ru: Des(E'1)>Des(Y1), 即 a=1ANc=0—>d=0,cf=1。 
ru: Des(E)—>Des(Y1), 即 a=0Ac=0—>d=0,cf=1。 
ra: Des(Es)—>Des(Y1), 即 a=0ANc=1>d=0,cf=1。 
(2) 由 于 EE 站 Yi=E,Es 败 Y=Es ,Es 八 Yi=Es, 有 规则 
razz: Des(Es)>Des(Y2), 即 a=1AMc=1>d=1,cf=1。 
rs: Des(Es)—>Des(Yi), 即 a=1AMc=2—>d=1,cf=1。 
res: Des(Es)—>Des(Ys), 即 a=0ANc=2—>d=1,cf=1。 


6. 规则 化 简 


(1) 对 rn 和 rw 进行 合并 ,有 
(a=0Va=1)Ac=0>d=0 
其 中 4a 的 取 值 包括 了 全 部 取 值 , 故 属性 a 可 删除 , 即 
c 一 0 一 d 一 0 


图 8.3 Yi 与 Ei\El、Es 
最 小 包含 图 


(2) 对 rs 和 res 进行 合并 ,有 
(a=1l1Va=0)Ac=2—>d=1 
同样 ,可 删除 属性 < ,得 到 


c 一 2 一 4 一 1 
7. 最 后 的 规则 


(1) 体温 = 正常 二 流感 = 否 ( 即 c 一 0 一 d 一 0) 。 
(2) 头痛 == 否 人 体温 = 高 习 流 感 = 否 ( 即 a 二 0Ac=1>d 二 0)。 
(3) 体温 二 很 高 > 流感 = 是 ( 即 c=2>d 二 1)。 
(4) 头痛 = 是 人 体温 = 高 一 流感 = 是 ( 即 a=1Ac=1>d=1)。 


8.2 关联 规则 挖掘 


关联 规则 (association rule) 挖 掘 是 发 现 大 量 数据 库 中 项 集 之 间 的 关联 关系 。 随 着 大 量 
数据 的 增加 和 存储 ,许多 人 士 对 于 从 数据 库 中 挖掘 关联 规则 越 来 越 感 兴趣 。 从 大 量 商 业 事 
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务 中 发 现 有 趣 的 关联 关系 ,可 以 帮助 许多 商业 决策 的 制定 ,如 分 类 设计 、 交 叉 购物 等 。 

目前 ,关联 规则 挖掘 已 经 成 为 数据 挖掘 领域 重要 的 研究 方向 。 关 联 规则 模式 属于 描述 
型 模式 ,发 现 关 联 规则 的 算法 属于 无 监督 学 习 的 方法 。 

Agrawal 等 人 于 1993 年 首先 提出 了 挖掘 顾客 交易 数据 库 中 项 集 间 的 关联 规则 问题 ,以 
后 诸多 的 研究 人 员 对 关联 规则 的 挖掘 问题 进行 了 大 量 的 研究 。 他 们 的 工作 包括 对 原 有 的 算 
法 进行 优化 ,如 引入 随机 采样 并行 的 思想 等 ,以 提高 算法 挖掘 规则 的 效率 ,并 对 关联 规则 的 
应 用 进行 推广 。 

最 近 也 有 独立 于 Agrawal 的 频繁 集 方法 的 工作 ,以 克服 频繁 集 方法 的 一 些 缺陷 ,探索 
挖掘 关联 规则 的 新 方法 。 同 时 随 着 OLAP 技术 的 成 熟 和 应 用 ,将 OLAP 和 关联 规则 结合 也 
成 了 一 个 重要 的 方向 。 也 有 一 些 工作 注重 于 对 挖掘 到 的 模式 的 价值 进行 评估 ,他 们 提出 的 
模型 建议 了 一 些 值得 考虑 的 研究 方向 。 

本 章 主要 给 出 了 关联 规则 挖掘 的 基本 概念 和 核心 挖掘 算法 。 


8.2.1 关联 规则 的 挖掘 原理 


关联 规则 是 发 现 交 易 数 据 库 中 不 同 商品 (项 ) 之 间 的 联系 ,这 些 规则 找 出 顾客 购买 行为 
模式 ,如 购买 了 某 一 商品 对 购买 其 他 商品 的 影响 。 发 现 这 样 的 规则 可 以 应 用 于 商品 货架 设 
计 、 货 存 安排 以 及 根据 购买 模式 对 用 户 进行 分 类 。 现 实 中 ,这 样 的 例子 很 多 。 最 典型 的 , 例 
如 超级 市 场 利用 前 端 收 款 机 收集 存储 了 大 量 的 售 货 数据 ,这 些 数 据 是 一 条 条 的 购买 事务 记 
录 , 每 条 记录 存储 了 事务 处 理 时 间 ,顾客 购买 的 物品 ,物品 的 数量 及 金额 等 。 这 些 数据 中 常 
常 隐 含 如 下 形式 的 关联 规则 : 

在 购买 铁 锤 的 顾客 当中 ,有 70% 的 人 同时 购买 了 铁 钉 。 

这 些 关联 规则 很 有 价值 ,商场 管理 人 员 可 以 根据 这 些 关 联 规则 更 好 地 规划 商场 ,如 把 铁 
锤 和 铁 钉 这 样 的 商品 摆 放 在 一 起 ,能 够 促进 销售 。 

有 些 数据 不 像 售 货 数据 那样 很 容易 就 能 看 出 一 个 事务 是 许多 物品 的 集合 ,但 稍微 转换 
一 下 思考 角度 ,仍然 可 以 像 售 货 数据 一 样 处 理 。 比 如 人 寿 保 险 ,一 份 保单 就 是 一 个 事务 。 保 
险 公 司 在 接受 保险 前 ,往往 需要 记录 投保 人 详尽 的 信息 ,有 时 还 要 到 医院 做 身体 检查 。 保 单 
上 记录 有 投保 人 的 年 龄 ,性别 、 健 康 状 况 、 工 作 单 位 .工作 地 址 .工资 水 平等 。 

这 些 投保 人 的 个 人 信息 就 可 以 看 作 事务 中 的 物品 。 通 过 分 析 这 些 数据 ,可 以 得 到 类 似 
以 下 的 关联 规则 ， 

年 龄 在 40 岁 以 上 ,工作 在 A 区 的 投保 人 当中 ,有 45% 的 人 曾经 向 保险 公司 索赔 过 。 在 
这 条 规则 中 ,“ 年 龄 在 40 岁 以 上 ”是 物品 甲 , “工作 在 A 区 ”是 物品 乙 ,“ 向 保险 公司 索赔 过 ” 
则 是 物品 丙 。 可 以 看 出 来 ,A 区 可 能 污染 比较 严重 ,环境 比较 差 ,导致 工作 在 该 区 的 人 健康 
状况 不 好 ,索赔 率 也 相对 比较 高 。 


1. 基本 原理 


设 [一 (im,…,i)} 是 项 (Item) 的 集合 。 记 D 为 事务 (Transaction) 的 集合 (事务 数据 
库 ) ,事务 T 是 项 的 集合 ,并 且 TST。 对 每 一 个 事务 有 惟一 的 标识 ,如 事务 号 , 记 作 TID。 
设 A 是 T 中 一 个 项 集 , 如 果 AST, 那 么 称 事务 工 包含 A。 


a 


定义 1 关联 规则 是 形 如 A 一 B 的 蕴涵 式 ,这 里 ACI,BCIT, 并 且 ANB=@。 
定义 2 规则 的 支持 度 。 规 则 A 一 B 在 数据 库 D 中 具有 支持 度 S ,表示 S 是 DD 中 事务 
同时 包含 AB 的 百分比 , 它 是 概率 P(AB), 即 


S(A—B)= P(AB)=| 


入 | (8. 25) 
其 中 |D| 表 示 事 务 数据 库 D 的 个 数 ,|AB| 表 示 A、B 两 个 项 集 同时 发 生 的 事务 个 数 。 
定义 3 规则 的 可 信和 度 。 
规则 A 一 B 具有 可 信和 度 C ,表示 C 是 包含 A 项 集 的 同时 也 包含 B 项 集 , 相 对 于 包含 A 
项 集 的 百分比 ,这 是 条 件 概率 P(B|A), 即 


C(A—B)=P(B|A)= 


其 中 |A| 表 示 数 据 库 中 包含 项 集 A 的 事务 个 数 。 

定义 4 阔 值 。 为 了 在 事务 数据 库 中 找 出 有 用 的 关联 规则 ,需要 由 用 户 确定 两 个 姜 值 : 
最 小 支持 度 (min_sup) 和 最 小 可 信和 度 (min_conf)。 

定义 5 项 的 集合 称 为 项 集 (Itemset) ,包含 个 项 的 项 集 称 为 有- 项 集 。 如 果 项 集 满足 
最 小 支持 度 , 则 称 为 频繁 项 集 (frequent itemset) 。 

定义 6 关联 规则 。 同 时 满足 最 小 支持 度 (min_sup) 和 最 小 可 信和 度 (min_conf) 的 规则 
称 为 关联 规则 , 即 SCA-~>B) 二 min_sup 且 C(A-~B) 二 min_conf 成 立时 ,规则 A 一 B 称 为 关 
联 规则 ,也 可 以 称 为 强 关联 规则 。 


2. 关联 规则 挖掘 过 程 


关联 规则 的 挖掘 一 般 分 为 如 下 两 个 过 程 。 

(1) 找 出 所 有 的 频繁 项 集 : 根据 定义 ,这 些 项 集 的 频繁 性 至 少 和 预定 义 的 最 小 支持 数 
目 一 样 。 

(2) 由 频繁 项 目 产生 关联 规则 : 根据 定义 ,这 些 规则 必须 满足 最 小 支持 度 和 最 小 可 
信 度 。 

这 两 步 中 ,第 二 步 是 在 第 一 步 的 基础 上 进行 的 ,工作 量 非常 小 。 挖 掘 关联 规则 的 总 体 性 
能 由 第 一 步 决定 。 


3. 关联 规则 的 兴趣 度 


关联 规则 主要 是 考虑 同时 购买 商品 的 事务 的 相关 性 。 对 于 不 购买 商品 的 事务 与 购买 商 
品 的 事务 的 关系 的 研究 ,需要 引入 兴趣 度 概念 。 

先 通 过 一 个 具体 的 例子 来 说 明 不 购买 商品 与 购买 商品 的 关系 。 设 1 三 (咖啡 ,牛奶 ) , 交 
易 集 刀 ,经 过 对 的 分 析 , 得 到 如 表 8. 14 所 示 的 表格 。 


表 8.14 交易 集 的 分 析 


| AB | 


(8. 26) 
1A| 


项 目 买 咖啡 不 买 咖啡 合计 
买 牛奶 20 3 25 
不 买 牛奶 70 [+ 75 
合计 90 10 100 


。 178 * 


由 表 8. 14 可 以 了 解 到 ,如 果 设 定 min_sup 王 0.2, min_conf 二 0. 8, 按 照 现 有 的 挖掘 算法 
可 以 得 到 如 下 的 关联 规则 : 
买 牛奶 一 买 咖啡 ， S 二 0.2,，C=0.8 (8.27) 
即 80%% 的 人 买 了 牛奶 就 会 买 咖啡 。 这 一 点 从 逻辑 上 是 完全 合理 正确 的 。 
但 从 表 8. 14 中 同时 也 可 以 毫 不 费 神 地 得 到 结论 : 90% 的 人 肯定 会 买 咯 啡 。 换 句 话 说 ， 
买 牛 奶 这 个 事件 对 于 买 咖啡 这 个 事件 的 刺激 作用 (80%) 并 没有 想象 中 的 (90%) 那 么 大 。 反 
而 是 规则 
买 咖啡 一 不 买 牛 奶 ， S 二 0.7，C = 0.78 (8. 28) 
的 支持 度 和 可 信和 度 分 别 为 0.7 和 0.78, 更 具有 商业 销售 的 指导 意义 。 
从 上 面 这 个 例子 可 以 发 现 ,目前 基于 支持 度 -可 信和 度 的 关联 规则 的 评估 体系 存在 着 问 
题 ; 同 时 , 现 有 的 挖掘 算法 只 能 挖掘 出 类 似 于 式 (8. 27) 的 规则 ,而 对 于 类 似 于 式 (8. 28) 的 带 
有 类 似 于 “不 买 牛奶 ”之 类 的 负 属 性 项 的 规则 却 无 能 为 力 ,而 这 种 知识 往往 具有 更 重要 的 价 
值 。 国 内 外 围绕 这 个 问题 展开 了 许多 研究 。 引 入 兴趣 度 概念 ,分 析 项 集 A 与 项 集 B 的 关系 
程度 。 
定义 7 兴趣 度 为 


P(AB) 
PAP(BY 


式 (8. 29) 反 映 了 项 集 A 与 项 集 B 的 相关 程度 。 若 
I(A—B)=1, 即 P(AB) = P(A)P(B) 
表示 项 集 A 出 现 和 项 集 B 出 现 是 相互 独立 的 。 若 
I(A—B)<1 
表示 A 出 现 和 B 出 现 是 负 相 关 的 。 若 
TI(A 一 B) 之 1 
表示 A 出 现 和 B 出 现 是 正 相 关 的 。 意 味 着 A 的 出 现 蕴 涵 B 的 出 现 。 

在 兴趣 度 的 使 用 中 ,一 条 规则 的 兴趣 度 越 大 于 1, 说 明 对 这 条 规则 越 感 兴趣 ( 即 其 实际 
利用 价值 越 大) ;一 条 规则 的 兴趣 度 越 小 于 1 ,说 明 对 这 条 规则 的 反面 规则 越 感 兴趣 ( 即 其 反 
面 规则 的 实际 利用 价值 越 大 ) ;显然 ,兴趣 度 I 不 小 于 0。 

下 面 从 兴趣 度 的 角度 来 看 一 下 前 面 那个 牛奶 与 咖啡 的 例子 , 列 出 所 有 可 能 的 规则 描述 
及 其 对 应 的 支持 度 .可 信和 度 和 兴趣 度 , 如 表 8. 15 所 示 。 


表 8.15 所 有 可 能 的 关联 规则 


T(A 一 也 ) 一 (8. 29) 


项 目 rules 入 CC I 
1 买 牛奶 一 买 咖啡 0.2 0.8 0. 89 
2 买 咖 啡 一 买 牛奶 0.2 0.22 0.89 
和 买 牛奶 一 不 买 咖啡 0.05 0.2 2 
4 不 买 咖啡 一 买 牛奶 0.05 0.5 
5 不 买 牛奶 一 买 咖啡 0.7 0.93 1.037 
6 买 咖啡 一 不 买 牛奶 0.7 0.78 1.037 
7 不 买 牛奶 一 不 买 咖啡 0.05 0. 067 0. 67 
8 不 买 咖啡 不 买 牛奶 0.05 0.2 0.87 


在 此 只 考虑 第 1.2.3.6 共 4 条 规则 。 由 于 厂 ,T 过 1, 所 以 在 实际 中 它 的 价值 不 大 ; I;， 
到 二 1 ,都 可 以 列 人 进一步 考虑 的 范围 。 
公式 (8. 29) 等 价 于 


P(AB) PB: | .AY 
P(A)P(B) P(B) 


公式 (8. 30) ,有 人 称 之 为 作用 度 (lift) ,表示 关联 规则 A 一 B 的 “提升 ”?。 如 果 作用 度 ( 兴 
趣 度 ) 不 大 于 1, 则 此 关联 规则 就 没有 意义 了 。 

概括 地 说 ,可 信 度 是 对 关联 规则 的 准确 度 的 衡量 。 支 持 度 是 对 关联 规则 重要 性 的 衡量 。 
支持 度 说 明了 这 条 规则 在 所 有 事务 中 有 多 大 的 代表 性 ,显然 支持 度 越 大 ,关联 规则 越 重要 。 
有 些 关联 规则 可 信 度 虽然 很 高 ,但 支持 度 却 很 低 , 说 明 该 关联 规则 实用 的 机 会 很 小 ,因此 也 
不 重要 。 

兴趣 度 (作用 度 ) 描 述 了 项 集 A 对 项 集 B 的 影响 力 的 大 小 。 兴 趣 度 (作用 度 ) 越 大 ,说 明 
项 集 B 受 项 集 A 的 影响 越 大 。 


8.2.2 Apriori 算法 的 基本 思想 


Agrawal 等 人 于 1993 年 首先 提出 了 挖掘 顾客 交易 数据 库 中 项 集 间 的 关联 规则 问题 , 设 
计 了 基于 频繁 集 理论 的 Apriori 算法 。 以 后 诸多 的 研究 人 员 对 关联 规则 的 挖掘 问题 进行 了 
大 量 的 研究 。 他 们 的 工作 包括 对 原 有 的 算法 进行 优化 ,如 引入 随机 采样 .并 行 的 思想 等 ,以 
提高 算法 挖掘 规则 的 效率 ;提出 各 种 变 体 , 如 泛 化 的 关联 规则 .周期 关联 规则 等 ,对 关联 规则 
的 应 用 进行 推广 。 

Apriori 是 挖掘 关联 规则 的 一 个 重要 方法 。 这 是 一 个 基于 两 阶段 频繁 集 思 想 的 方法 ,将 
关联 规则 挖掘 算法 的 设计 分 解 为 两 个 子 问题 : 

。 找到 所 有 支持 度 大 于 最 小 支持 度 的 项 集 (itemset) ,这 些 项 集 称 为 频繁 集 (frequent 

itemset) 。 

。 使 用 第 一 个 子 问题 找到 的 频繁 集 产生 期 望 的 规则 。 

Apriori 使 用 一 种 称 做 逐 层 搜索 的 迭代 方法 , 即 “K- 项 集 " 用 于 探索 *K 十 1- 项 集 *。 首 
先 , 找 出 频繁 *1- 项 集 ” 的 集合 。 该 集合 记 作 L, 。Li 用 于 找 频繁 "2- 项 集 ” 的 集合 L: ,而 工 ; 用 
于 找 工 ; ,如 此 下 去 ,直到 不 能 找到 “K- 项 集 ”。 找 每 个 Lk 需要 一 次 数据 库 扫 描 。 


I(A—= 8B) 


(8. 30) 


1， Apriori 性 质 


性 质 ”频繁 项 集 的 所 有 非 空 子 集 都 必须 也 是 频繁 的 。 

该 性 质 表 明 , 如果 项 集 B 不 满足 最 小 支持 度 阅 值 min_sup, 则 B 不 是 频繁 的 , 即 
P(B) 二 min_sup。 如 果 项 集 A 添加 到 B , 则 结果 项 集 ( 即 BU A) 不 可 能 比 B 更 频繁 出 现 。 
因此 ,BUA 也 不 是 频繁 的 . 即 P(BUA) 二 min_sup。 

Apriori 性 质 可 用 于 压缩 搜索 空间 。 


2.“ 玫 项 集 " 产 生 “ 天 十 1- 项 集 ” 


设 K- 项 集 Lk ,K 十 1 项 集 Lx+1 ,产生 Lk+i 的 候选 集 Ck+: 。 有 公式 : 
。 180。 


Cri = Lr XEr= {XUY, 基 中 XY E Le | XY|= 和 寺 
其 中 Ci 是 1- 项 集 的 集合 ， Ee 如 : 

Li = {{A},{B}} 
oo A,B}, 且 | AB|=2 
sd B},{A,C}} 

三 人 霹 AGE 


3. Apriori 算法 中 候选 项 集 与 频繁 项 集 的 产生 实例 


有 如 表 8. 16 所 列 的 事务 数据 库 , Apriori 算法 步骤 如 下 : 对 于 下 述 一 个 例子 事务 数据 
库 产生 频繁 项 集 。 
表 8.16 事务 数据 库 例 


事务 ID 事务 的 项 目 集 

T A,B,E 

全 B,D 

Ts; B,C 

T, A,B,D 

Ts A,C 

Ts B,C 

T A,C 

Ts A,B,C,E 
TT A,B,C 


(1) 在 算法 的 第 一 次 迭代 ,每 个 项 都 是 候选 1- 项 集 的 集合 Ci 的 成 员 。 算 法 扫描 所 有 的 
事务 ,对 每 个 项 的 出 现 次 数 计数 ,如 图 8.4 中 的 第 1 列 。 

(2) 假定 最 小 事务 支持 计数 为 2( 即 min_sup 二 2/9 守 22%), 可 以 确定 频繁 1- 项 集 的 集 
合 Li。 它 由 具有 最 小 支持 度 的 候选 1- 项 集 组 成 ,如 图 8.4 中 的 第 2 列 。 

(3) 为 发 现 频 繁 2- 项 集 的 集合 L，, 算 法 使 用 Li x* 工 ,来 产生 候选 集 C: ,如 图 8. 4 中 的 第 
3 列 。 

(4) 扫描 D 中 事务 ,计算 Cs 中 每 个 候选 项 集 的 支持 度 计数 ,如 图 8.4 中 的 第 4 列 。 

(5) 确定 频繁 2- 项 集 的 集合 L,, 它 由 具有 最 小 支持 度 的 C; 中 的 候选 2- 项 集 组 成 ,如 图 
8.4 的 第 5 列 。 

(6) 候选 3- 项 集 的 集合 Cs 的 产生 , 仍 按 (3) 进 行 。 得 到 候选 集 : 

G=UWB Ch tl EMC ph {BC Di (BCE),.{B DE} 

按 Apriori 性 质 , 频 繁 项 集 的 所 有 子 集 必须 是 频繁 的 。 由 于 {A,D}),{C,D},{C,E) 
{D,E} 不 是 频繁 项 集 , 故 Cs 中 后 4 个 候选 不 可 能 是 频繁 的 ,在 C; 中 删除 它们 ,如 图 8. 4 中 第 
6 列 。 

扫描 D 中 事务 ,对 C; 中 的 候选 项 集 计算 支持 度 计数 , 见 图 8.4 第 7 列 。 

(7) 确定 Ls. 它 由 具有 最 小 支持 度 的 Cs 中 候选 3- 项 集 组 成 ,如 图 8.4 中 第 8 列 。 

(8) 按 公式 产生 候选 4- 项 集 的 集合 C ,产生 结果 {A,B,C,E) ,这 个 项 集 被 剪 去 ,因为 它 

1 


的 子 集 {B,C,E} 不 是 频繁 的 。 这 样 L, 一 8B。 此 算法 终止 。L; 是 最 大 的 频繁 项 集 , 即 {A,B， 
C} 和 {A,B,E}。 
具体 产生 过 程 如 图 8.4 所 示 。 


CI 候选 集 方 频繁 1- 项 集 CC, 候选 集 C 〇 候选 集 
项 [支持 度 项 [支持 度 项 集 项 集 | 支持 度 
集 | 计数 集 | 计数 4B 下 | 计数 
4| 6 | 比较 |4| 6 | 产生 Cs|4.C| 计算 |4B| 4 
B 了 -| B = A,D “| A,C 4 
C 6 支持 度 LL 6 A,E 支持 度 A,D Y 
D 时 D B,C A,E 2 
E 2 E 2 B,D B,C 4 
BE B,D 2 
GD B,E 和 
(sl GD 0 
D,E to 1 
已 频 繁 2- 项 集 DE| 0 
二 全 | 支持 度 
项 集 | 计数 Cs 候选 集 C 候 选集 已 频 每 3- 项 集 
i 4,B| 4 | 产生 C,| 项 集 | 1 支持 度 支持 度 
Ua 朵 大 呈 Cl 半生 | 项 集 | 计数 | -| 项 集 | "计数 
支持 度 [4.5| 2 1B,E| 支 持 度 [4BC| 2 LBC| 2 
才 4 A,B,E > A,B,E 2 
B,D 2 
B,E 2 
图 8.4 ”候选 集 与 频繁 项 集 的 产生 
4. 产生 关联 规则 


由 频繁 项 集 产 生 关联 规则 的 工作 相对 简单 一 点 。 根 据 前 面 提 到 的 置信 度 的 定义 ,关联 
规则 的 产生 如 下 : 
(1) 对 于 每 个 频繁 项 集 工 ,产生 工 的 所 有 非 空子 集 ; 


(2) 对 于 的 每 个 非 空子 集 S ,如 果 | | >>min_conf. 则 笨 出 规则 : S 一 一 S。 


注 : 工 一 S 表示 在 项 集 L 中 除去 S 子 集 的 项 集 。|L| 和 |S| 表 示 项 集 L 和 S 的 计数 。 
由 于 规则 由 频繁 项 目 集 产生 ,每 个 规则 都 自动 满足 最 小 支持 度 。 
在 表 8. 16 事务 数据 库 中 ,频繁 项 集 L=={A,B,E} 可 以 由 L 产生 哪些 关联 规则 ? 工 的 非 
空子 集 S 有 : {A, B}, {A, E}, {B, EE}, {A}), {B),{E)。 可 得 到 关联 规则 如 下 : 
AAB—>E confidence=2/4=50% 
AAE—>B confidence=2/2 二 100% 
BAE—A confidence= 二 2/2 二 二 100% 
A=BAE confidence=2/6X33% 
B—>AAE confidence=2/7X29% 
E>AAB confidence=2/2 二 100% 
假设 最 小 可 信和 度 为 60% , 则 最 终 输 出 的 关联 规则 为 : 
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AAE—B confidence==100% 
号 办 本 二 六 confidence==100% 
E~AAB confidence==100% 
对 于 频繁 项 集 {A,B,C) ,同样 可 得 其 他 关联 规则 。 


8.2.3 ”Apriori 算法 程序 


为 了 生成 所 有 频繁 集 ,使 用 了 递 推 的 方法 。 程 序 包括 apriori_gen 子 程序 产生 候选 , 完 
成 连接 和 前 枝 。has_infrequent_subset 子 程 序 完 成 非 频 繁 子 集 的 测试 。 生 成 所 有 频繁 项 集 
的 apriori 算法 程序 如 下 : 


Li= { l-itemsets}; 
for (k=2; Li- 天 @; k 十 十 ) do 
begin 


Cx =apriori_gen(Ly-i ,min_sup); // 新 的 候选 集 
for all transactions tED do 
begin 
C= subset(C ,t); // 事 务 t 中 包含 的 候选 集 
for all candidates cE C, do 
c.count 十 十 ; 
end 
Lx={cEC le. count2min_sup) 
end 
Answer= UL,; 


Procedure apriori_gen( Lx_1 .min_sup) 
C=® 
for each itemset l: E Le 

for each itemset iiE Le 


CBE1J=BE1]) A (GNC2] 一 [2]) 和 A … A (1[k 一 2 一 1[k 一 2]) A GCk—1]< 


BLk—1j) 

then 
begin 
c= ljoinl 
if has_infrequent_subset(c, Lx-1) 

delete c; 

else add c to Ck; 

end 

return Cx; 


Procedure has_infrequent_subset(c, Lx_1) 
for each (k 一 1)-subset s of c 
is FE Li-ithen 
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return TRUE; 
return FALSE; 


首先 产生 频繁 1- 项 集 工 ; ,然后 是 频繁 2- 项 集 L, ,直到 有 某 个 7 值 使 得 ,为 空 ,算法 停 
止 。 这 里 在 第 次 循环 中 ,过 程 先 产生 候选 -项 集 的 集合 Ci ,Ci 中 的 每 一 个 项 集 是 对 两 个 
只 有 一 个 项 不 同 的 属于 工 ;_; 的 频繁 集 做 一 个 连接 来 产生 的 。Ci 中 的 项 集 是 用 来 产生 频繁 
集 的 候选 集 , 最 后 的 频繁 集 L; 必 须 是 Ci 的 一 个 子 集 。Ci 中 的 每 个 元 素 需 在 交易 数据 库 中 进 
行 验证 来 决定 其 是 否 加 入 Li ,这 里 的 验证 过 程 是 算法 性 能 的 一 个 瓶颈 。 这 个 方法 要 求 多 次 
扫描 可 能 很 大 的 交易 数据 库 , 即 如 果 频 繁 集 最 多 包含 10 个 项 ,那么 就 需要 扫描 交易 数据 库 
10 遍 , 这 需要 很 大 的 1/O 负载 。 

Agrawal 等 人 引入 了 修剪 技术 来 减 小 候选 集 Ci 的 大 小 ,由 此 可 以 显著 地 改进 生成 所 有 
频繁 集 算法 的 性 能 。 算 法 中 引入 的 修剪 策略 基于 Apriori 性 质 : 一 个 项 集 是 频繁 集 当 且 仅 
当 它 的 所 有 子 集 都 是 频繁 集 。 那 么 ,如 果 Ci 中 某 个 候选 项 集 有 一 个 (k 一 1)- 子 集 不 属于 
L:-1, 则 这 个 项 集 可 以 被 修剪 掉 不 再 被 考虑 ,这 个 修剪 过 程 可 以 降低 计算 所 有 的 候选 集 的 支 
持 度 的 代价 。J. Kleinberg 在 文中 还 引入 hash 树 (hash tree) 方 法 来 有 效 地 计算 每 个 项 集 的 
支持 度 。 


8.2.4 ”基于 FP- 树 的 关联 规则 挖掘 算法 


Apriori 算法 有 一 些 固 有 的 缺陷 : 
。 可 能 会 产生 大 量 的 候选 集 。 当 长 度 为 1 的 频繁 集 有 10 000 个 的 时 候 , 长 度 为 2 的 候 
选集 个 数 将 会 超过 10M。 还 有 就 是 如 果 要 生成 一 个 很 长 的 规则 ,要 产生 的 中 间 元 素 
也 是 巨大 的 。 

。 必须 多 次 重复 扫描 数据 库 ,对 候选 集 进 行 模式 匹配 ,因此 效率 低下 。 

Jiawei Han 等 人 提出 了 一 种 基于 FP- 树 的 关联 规则 挖掘 算法 FP_growth, 它 采取 “分 而 
治之 ”的 策略 ,将 提供 频繁 项 目 集 的 数据 库 压缩 成 一 棵 频繁 模式 树 (FP- 树 ), 但 是 仍然 保留 
项 集 关 联 信 息 ,然后 将 这 种 压缩 后 的 数据 库 分 成 一 组 条 件数 据 库 ,并 分 别 挖掘 每 个 数据 库 。 
理论 和 实验 表明 该 算法 优 于 Apriori 算法 。 


1. 算法 描述 


算法 FP_growth 将 发 现 所 有 的 频繁 项 目 集 的 过 程 分 为 以 下 两 步 : 构造 频繁 模式 树 FP- 
树 ; 调 用 FP_growth 挖掘 出 所 有 的 频繁 项 目 集 。 在 FP- 树 中 ,每 个 结 点 由 3 个 域 组 成 : 项 目 
名 称 item_name、 结 点 计数 count 和 结 点 链 (指针 )。 另 外 ,为 了 方便 树 的 遍历 ,利用 频繁 项 
集 Li (1- 项 集 ) ,并 增加 "* 结 点 链 ”, 通 过 结 点 链 指向 该 项 目 在 树 中 的 出 现 , 即 结 点 链 头 head， 
指向 FP- 树 中 与 之 名 称 相同 的 第 一 个 结 点 。 

仍 利用 表 8. 16 事务 数据 库 例 来 说 明 FP- 树 的 构造 过 程 和 频繁 模式 挖掘 过 程 。 

(1) FP- 树 构造 过 程 

数据 库 的 第 一 次 扫描 与 Apriori 相同 , 它 导 出 频繁 项 (1- 项 集 ) 的 集合 ,并 得 到 支持 度 计 
数 。 设 最 小 支持 度 为 2, 频 繁 项 的 集合 按 支持 度 计数 的 递减 顺序 排序 ,结果 表 记 作 工 。 这 
样 ,有 : 
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下 二 

FP- 树 构造 如 下 : 首先 ,创建 树 的 根 结 点 ,用 null 标记 。 第 二 次 扫描 事务 数据 库 。 每 个 
事务 中 的 项 按 工 中 的 次 序 处 理 ( 即 按 递减 支持 度 计数 排序 ) 并 对 每 个 事务 创建 一 个 分 支 。 

例如 ,第 一 个 事务 “Ti : A,B.E”, 按 工 的 次序 包 括 3 个 项 {B,A,E) ,导致 构造 树 的 第 一 
个 分 支 <<B: 1,A: 1,E: 1>>。 该 分 支 具有 3 个 结 点 ,其 中 B 作 根 结 点 的 子 链接 ,A 链接 到 
B ,EE 链接 到 A。 从 工 表 中 结 点 链 中 ,项 B.A、E 的 指针 分 别 指 向 树 中 B、A、E 结 点 。 

第 二 个 事务 “T,:; B,D”, 按 工 的 次 序 也 是 {B,D} 仍 以 B 开头 ,这 样 在 B 结 点 中 产生 一 
个 分 支 ,该 分 支 与 T 项 集 存 在 路 径 共 享 前 级 BB。 这 样 , 将 结 点 B 的 计数 增加 1, 即 (B:2) ,并 
创造 一 个 DD 的 新 结 点 (D:1) ,作为 (B:2) 的 子 链接 。 

第 三 个 事务 “T, : B,C”, 同 第 二 个 事务 一 样 处 理 , 因 为 有 相同 的 B 为 头 ,在 B 结 点 又 产 
生 一 个 分 支 ,产生 新 结 点 , 记 为 (C:1) , 结 点 B 的 计数 再 增加 1( 为 3), 即 (B.;3)。 

第 四 个 事务 “T,: A,B,D”, 按 工 的 次 序 为 {B,A,D}。 在 FP- 树 中 B.A 已 有 结 点 ,将 共 
享 前 级 路 径 , 从 A 结 点 分 支 产 生 D 的 另 一 新 结 点 , 记 为 (D:1) ,共享 结 点 B、A 的 计数 均 增 
加 1, 即 (B:4),(A:2)。 此 (D:1) 结 点 用 指针 指向 前 面 产 生 的 (D:1) 结 点 ,在 工 表 中 结 点 链 
接 中 指针 指向 该 CD:1) 结 点 。 

第 五 个 事务 “Ti : A,C”, 按 工 表 的 次 序 为 {4A,C}。 在 FP- 树 中 ,由 于 该 事务 不 含 B 结 
点 ,不 能 共享 了 分支。 从 null 结 点 产生 FP- 树 的 第 二 个 分 支 ,建新 A 结 点 , 记 为 (A:1) ,由 该 
结 点 产生 分 支 , 建 新 C 结 点 , 记 为 (C:1)。 由 于 于 分 支 中 有 (4A:2) 结 点 。 这 样 ,从 (A:2) 结 点 
用 指针 指向 此 (A:1) 结 点 ,B 分 支 中 有 (C:1) 结 点 , 它 用 指针 指向 此 (C:1) 结 点 。 

第 六 个 事务 “Te : B,C”, 同 第 三 个 事务 那样 , 沿 FP- 树 的 B-C 分 支 的 结 点 计数 各 增加 1 ， 
变 为 (B:5) 和 (C:2) 。 

第 七 个 事务 “T; : A,C”, 同 第 五 个 事务 那样 , 沿 FP- 树 的 A-C 分 支 的 结 点 计数 各 增加 1， 
变 为 (A:2) 和 (C:2) 。 

第 八 个 事务 “Ts : A,B,C,E”, 按 工 表 的 次 序 为 {B,A,C,E} ,可 沿 分 支 B-A 方向 ,在 A 
结 点 处 新 建 分 支 , 建 C 结 点 , 记 为 (C:1) ,由 该 结 点 再 建 分 支 , 建 已 结 点 , 记 为 (下 ,1) ,前 面 B、 
A 结 点 计数 各 增加 1, 变 为 : (B:6)(A:3)。FP- 树 中 原 已 结 点 (GE:1) 中 的 指针 指向 该 ( 忆 ,1) 
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第 九 个 事务 “Ts : A,B,C?”, 按 工 表 的 次 序 为 {B,A,C}, 同 第 八 个 事务 那样 ,分支 BA-C 
方向 且 已 有 结 点 ,分 别 对 B.A、C 3 个 结 点 计数 增加 1, 变 为 (B:7)、(A:4)、(C:2)。 最 终 的 
FP- 树 如 图 8.5 所 示 。 

从 FP- 树 可 以 看 出 ,从 工 表 的 结 点 链 的 指针 开始 ,指向 B 结 点 , 它 的 计数 器 为 7, 指 向 A 
结 点 ,共有 两 个 A 结 点 ,累加 计数 为 6; 指 向 C 结 点 ,共有 3 个 C 结 点 ,累加 计数 为 6; 指 向 也 
结 点 ,共有 2 个 了结 点 ,累加 计数 为 2; 指 向 已 结 点 ,共有 2 个 已 结 点 ,累加 计数 为 2。 这 样 ， 
频繁 模式 都 在 FP- 树 中 表现 出 来 。 

(2) 频繁 模式 挖掘 过 程 

从 FP- 树 中 挖掘 频繁 模式 , 先 从 工 表 中 最 后 一 项 开始 。E 在 FP- 树 有 2 个 分 支 , 路 径 为 
<BAE:1> 和 所 BACE:1 盖 。 以 下 为 后 缀 , 它 的 两 个 对 应 前 缀 路 径 是 (BA:1) 和 (BAC:1)， 
它们 形成 已 的 条 件 模式 基 。 它 的 条 件 FP- 树 只 包含 单个 路 径 二 B:2,A:2 二 ,不 包含 C, 因 为 

.185 。 


null 


Z 表 


项 | 支持 度 计数 | 
B 
4 6 
G 6 
D 2 
E 2 


图 8.5 表 8.16 事务 数据 库 的 FP- 树 


它 的 支持 度 计数 为 1, 小 于 最 小 支持 度 计 数 。 该 单个 路 径 产 生 频 繁 模式 的 所 有 组 合 : 
{BE:2, AE:2,BAE:2}。 

对 于 DD, 它 的 两 个 前 缀 形成 条 件 模 式 基 { (BA :1),(B:;1)) ,产生 一 个 单 结 点 的 条 件 FP- 
树 (B;2) ,并 导出 一 个 频繁 模式 {BD.:2)。 

对 于 C, 它 的 条 件 模 式 基 是 {(BA:2),(B:2),(A:2)), 它 的 条 件 FP- 树 有 2 个 分 支 (B: 
4,A:2) 和 (A:2)。 它 的 频繁 模式 集 为 (BC:4,AC:4,BAC:2)。 

对 于 A, 它 的 条 件 模式 基 是 {(B:4)}, 它 的 FP- 树 只 包含 一 个 结 点 (B:4) ,产生 一 个 频繁 
模式 {BA :4} ,如 表 8. 17 所 示 。 


表 8.17 利用 FP- 树 挖掘 频繁 模式 


项 条 件 模式 基 条 件 FP- 树 频繁 模式 
E BA:1,BAC:1 (B:2,A:2) BE:2,AE:2,BAE:2 
D BA:1,B:1 (B:2) BD:2 
C BA:2,B:2,A:2 (B:4,A:2)(A:2) BC:4,AC:4,BAC:2 
A B:4 (B:4) BA:4 

2. 基于 FP- 树 算法 


(1) 构造 频繁 模式 树 算法 

Q@ 扫描 事务 数据 库 D 一 次 。 收 集 频繁 项 的 集合 (1- 项 集 ) 以 及 相应 的 支持 度 。 按 照 支 
持 度 降序 排序 ,构成 频繁 项 表 工 。 

@ 创建 FP- 树 的 根 结 点 ,以 null 标记 。 对 于 D 中 的 每 个 事务 了 ,进行 如 下 处 理 : 选择 全 
中 的 频繁 项 目 , 并 按照 工 中 的 次 序 排 列 。 设 排列 之 后 的 频繁 项 表 为 Lp| Pj, 其 中 jp 是 第 一 个 
项 目 ,P 是 剩余 的 项 目 表 ; 如 果 [p|PJ 非 空 ,调用 insert_tree(Lp|P],T) 。 

insert_tree([p1Pj,T) 的 执行 过 程 如 下 : 

如 果 工 有 子女 N 使 得 N.item_name 二 p.item_name, 则 N 的 计数 加 1; 否则 创建 一 个 
新 结 点 N ,将 其 计数 设置 为 1 ,链接 到 它 的 父 结 点 T, 并 且 通 过 结 点 链 将 其 链接 到 具有 相同 
item_name 的 结 点 。 如 果 P 非 空 , 递 归 地 调用 insert_tree(P,T)。 

(2) 挖掘 频繁 项 目 集 算法 

FP- 树 的 频繁 项 目 集 挖掘 通过 调用 FP_growth(FP-tree,null) 实 现 。 该 实现 过 程 如 下 : 
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Procedure FP_growth(Tree ,a) 

Q@ 如 果 Tree 含 单个 路 径 已 , 则 

©@ 对 于 路 径 P 中 的 每 个 组 合 ( 记 作 8) 

© 产生 模式 BUa, 其 支持 度 support 二 8 中 结 点 的 最 小 支持 度 
@ 否则 对 于 在 Tree 头 部 的 每 个 a; 

® 产生 一 个 模式 8 二 a; Ua, 其 支持 度 support 二 a; 的 支持 度 


© 构造 8 的 条 件 模 式 基 , 然 后 构造 8 的 条 件 Treeg 
(@) 如 果 Trees 非 空 , 则 调用 FP_growth(Trees ,B) 
FP_growth 方法 将 发 现 长 频繁 模式 的 问题 转换 为 递归 的 发 现 一 些 短 模式 ,然后 连接 后 


级 。 它 使 用 最 不 频繁 的 项 作 后 缀 ,提供 了 非常 好 的 选择 性 ,大 大 降低 了 搜索 开销 。 
对 FP_growth 算法 的 性 能 研究 表明 : 对 于 挖掘 长 的 和 短 的 频繁 模式 , 它 都 是 有 效 的 和 
可 伸缩 的 ,并 且 大 约 比 Apriori 算法 快 一 个 数量 级 。 
3. 示例 说 明 
例如 ,假设 有 10 个 事务 的 数据 库 D, 项 目 集 合 {a,5,c,d,e,f,g,h,i) ,最 小 支持 度 为 
20% ,如 表 8. 18 所 示 。 
表 8.18 事务 数据 库 


TID To T T: Ts T, Ts i Ts Ts Ts 


频繁 项 目 


e 


a 


c 


图 8.6 FP- 树 实例 


使 用 FP_growth 算法 ,可 以 得 到 数据 库 D 的 频繁 项 目 集 为 {{e}:7,{a):5,{c):5, (1): 
4,{d}:3,{g}:3,{asc}:4,{ase}:4,{asg}:2,{ asi }:4,{c,e}:4,{c,g}:2,{c,7}:4, (es,g}: 
2,{esi}:3,(ayscye}:3,{aycsi}:4,{asesi}:3,{cyesi}):3,{a,c,esi}:3), 其 中 5、f、h 不 是 频 
繁 项 集 。 


卫生 -二 


习 题 


. 说 明 等 价 关系 、 等 价 类 以 及 划分 的 定义 。 
. 说 明 集合 X 的 上 .下 近似 关系 定义 。 
. 说 明正 域 . 负 域 和 边界 的 定义 。 
. 什么 是 属性 约 简 ? 
. 什么 是 属性 集 的 核 ? 
. 请 用 粗糙 集 的 条 件 属性 ,相对 于 决策 属性 的 约 简 定 义 , 对 于 两 类 人 数据 库 表 6. 3( 第 
6 章 ) 进 行 属性 约 简 计算 。 
8. 说 明 条 件 属性 C 与 决策 属性 D 之 间 的 依赖 度 Y(C,D) 的 含义 是 什么 ? 
9. 依赖 度 Y(C,D) 的 性 质 是 什么 ? 
10. 属性 a 的 重要 度 SGF(a,C,D) 的 含义 是 什么 ? 
11. 最 小 属性 集 的 概念 是 什么 ? 
12. 在 数据 库 中 获得 最 小 属性 集 的 步骤 是 什么 ? 
13. 如 何 利用 集合 之 间 的 上 下 近似 关系 获得 规则 ? 
14. 规则 的 支持 度 和 可 信和 度 的 含义 是 什么 ? 
15. 关联 规则 的 兴趣 度 定义 是 什么 ?说 明 兴趣 度 的 作用 。 
16. 数据 库 有 如 下 4 个 事务 。 设 最 小 支持 度 为 50%。 使 用 Apriori 算法 找 出 所 有 的 频 
繁 项 目 集 。 


A 中 no 局 


17. 实现 Apriori 算法 ,说 明 Apriori 算法 的 主要 系统 开销 在 哪里 ? 

18. 对 上 述 事 务 集 ,使 用 FP_ 树 算法 找 出 所 有 的 频繁 项 目 集 , 并 比较 二 者 在 性 能 上 的 
差异 。 

19. 对 表 8. 18 事务 数据 库 , 利 用 FP- 树 算法 进行 详细 计算 ,得 出 图 8. 6 的 FP- 树 。 

20. 对 上 题 得 出 的 频繁 项 集 求 出 关联 规则 。 
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第 9 曹 公式 


由 
Nazaa 
Cc 


9.1 公式 发 现 概述 


9.1.1 曲线 拟 合 与 公式 发 现 


在 科学 发 展 史上 ,各 种 物理 学 、 化 学 、 天 文学 中 的 自然 规律 都 是 著名 科学 家 对 大 量 的 实 
验 数 据 进行 深入 的 研究 ,最 后 得 到 了 自然 规律 ,如 牛顿 三 大 定律 ,万 有 引力 定律 、 开 普 勒 行星 
运行 定律 等 。 这 些 自然 定律 是 科学 发 展 和 社会 进步 的 葛 基 石 。 

自然 界 存在 着 无 数 的 规律 ,除了 已 被 发 现 的 外 ,还 有 很 多 规律 需要 人 们 去 发 现 。 在 大 量 
的 工程 问题 中 ,同样 存在 着 大 量 的 实验 数据 需要 人 们 去 寻找 它们 的 规律 性 。 在 找到 完全 精 
确 的 规律 性 之 前 ,一 般 用 经 验 性 规律 ( 带 有 一 定 的 误差 ) 来 代替 ,去 完成 工程 计算 ` 设 计 和 施 
工 。 经 验 规律 的 发 现 一 般 是 由 有 经 验 的 工程 师 来 完成 的 。 


1. 数值 计算 方法 中 的 曲线 拟 合 


随 着 计算 机 的 出 现 ,发 展 了 数据 拟 合 技术 。 它 是 数值 计算 的 重要 分 支 。 数 据 拟 合 是 利 
用 科学 试验 中 得 出 的 大 量 测量 数据 ,去 求 得 自 变 量 和 因 变 量 的 一 个 近似 公式 。 

例如 ,已 知 NN 个 点 (zi,yi) 去 求 得 自 变量 x 和 因 变量 y 的 一 个 近似 表达 式 y 二 $(x)。 

曲线 拟 合 问题 的 特点 在 于 ,被 确定 的 曲线 原则 上 并 不 特别 要 求 真 正 通过 给 定 的 点 ， 
只 要 求 它 尽 可 能 从 给 定点 的 附近 通过 。 对 于 含有 观测 误差 的 数据 来 说 ,不 过 点 的 原则 显 
然 更 为 适合 。 因 为 它 可 以 部 分 抵消 数据 中 含有 的 观测 误差 。 给 出 它们 一 般 的 近似 的 数 
学 公式 有 

3》 ”一 ao 十 aig(z) 十 azg(z) 十 … 十 akge(CZ) 9 1 

在 曲线 拟 合 中 ,$i.(zx) 一 般 取 x* 或 者 是 正 交 多 项 式 。 其 中 ao ai ,as，…,as 各 个 系数 的 

确定 常用 的 是 最 小 二 乘法 ,即使 各 点 的 误差 平方 和 最 小 : 


$laosals at)= Ny —y 
i=1 


EO ee 风 全 六 下 二 交 殉 六 于 
i=1 


— min 
对 于 如 何 选 择 co ,al ,as，,… ,at 使 误差 平方 和 最 小 ,可 以 用 数学 分 析 中 求 极 值 的 方法 , 即 函 数 
$Caosarsaz oak) 对 ao ,al,as，… sat 求 偏 微 商 ,再 使 偏 微 商 等 于 零 , 得 到 ao ,al ,az ，… ,a 应 
满足 的 方程 : 


N 
Wi 2>) Cy — a —ag(r) — —agilr)) =0 
i=1 


N 
9$/9a1 2 ya maar) — "mapr)) hr) =0 
i=1 (9. 3) 
N 
9$/9ax 2 ya —ag(z) — —aplr)) lxi) =0 
i 一 1 
求 得 这 组 方程 的 解 {a;} , 即 可 得 拟 合 公式 (9. 1) 。 
用 多 项 式 作 逼近 公式 : 
3 一 ao 十 azl 十 asz2 十 十 akz (9.4) 


根据 数学 定理 ,& 越 大 (x* 的 次 数 越 高 ) , 允 近 的 精度 越 高 。 但 实际 计算 表明 ,k 过 大 , 不 
但 求解 过 程 中 容易 发 生病 态 等 麻烦 情况 ,而 且 得 到 的 多 项 式 尽管 在 各 zx; 人 处 的 值 与 y; 很 接 
近 , 但 其 他 地 方 却 产生 不 合理 的 波动 现象 。 

为 克服 这 方面 的 困难 , 取 更 一 般 的 情况 , 即 用 正 交 多 项 式 B, (x) 代替 x*, 它 本 身 是 次 
多 项 式 , 典 型 的 如 勒 让 德 多 项 式 。 下 面 用 一 个 例子 来 说 明 。 

例如 ,在 某 一 个 化 学 反应 里 ,根据 实验 所 得 分 解 生 成 物 的 浓度 与 时 间 的 关系 如 表 9. 1 
所 示 。 

表 9.1 浓度 与 时 间 的 关系 数据 
时 间 ， 0 10 5 20 25 30 35 40 | 45 | 50 


浓度 > 0 1.27 | 2.16 | 2.86 | 3.44 | 3.87 | 4.15 | 4.37 |4.51|4.60|4.66 


由 于 用 简单 的 多 项 式 作 逼近 公式 ,得 不 到 理解 的 精度 ,采用 勒 让 德 多 项 式 来 作 逼 近 公 
式 。 在 此 ,用 5 次 正 交 勒 让 德 多 项 式 作 为 y 的 近似 公式 : 


5 
y= $7) = Daipin (zx) 
i=0 
其 中 z=!/5, 即 xo=0,zi1=1,*… ,zi 二 10。 
利用 曲线 拟 合 方式 得 到 具体 的 允 近 公式 为 
$s Cx) =3. 2627 X 107 powi0 C7) 一 2.15455 X 10* pio Cx) — 0.908 104 xX 10 p20 (x) 


— 0.164 X10 pao Cx) 一 0.0195 X 107 po (x) 一 0.0102 X 107 psuo (x) 
其 中 各 正 交 多 项 式 为 ， 


po10 (7)= 1 

piolz) 一 1 一 2* 而 
gD) 

bo LO 0 1 


一 下》 Zw — lw —2) 


x 
baio x) 1 = 12 10 1 30 10(10 一 1) 0 10(10 一 1)(10 一 2) 
4 (z= 1) 证 (一 一 2 
bunlr)= 1 20° 0t90° i001 140° 1000—1)00—2) 


X= Ds=2(=) 


| . 
1 70. 000—1)010—2) (0103) 


。 190 » 


Ei a 560 。 二 
10(10 一 1) 10(10 一 1)(10 一 2) 


CRs— 2 —3) 
10(W=D(10=2)(10=3) 


= = (z= 二 
10(10 一 1)(10 一 2)(10 一 3)(10 一 4) 


该 逼近 公式 的 精度 是 很 高 的 ,遗憾 的 是 ,此 公式 太 复 杂 , 计 算 起 来 繁琐 ,很 难 理解 变量 之 
间 的 内 在 关系 。 

曲线 拟 合 中 如 何 选取 基 函 数 ( 如 勤 让 德 多 项 式 ) 的 有 效 方法 是 正 交 筛选 法 。 

可 以 说 ,曲线 拟 合 方法 基本 上 解决 了 在 科学 与 工程 中 从 大 量 实验 数据 中 找 出 逼近 公式 ， 
达到 给 定 的 精度 。 

数据 拟 合 方法 虽然 能 解决 一 些 实际 问题 ,但 是 它 把 寻找 公式 的 范围 限制 在 多 项 式 形式 
之 内 。 对 正 交 多 项 式 一 般 表示 都 很 复杂 ,如 勒 让 德 多 项 式 是 由 多 个 多 项 式 组 成 。 每 个 多 项 
式 的 系数 都 不 相同 , 且 多 项 式 次 数 逐渐 增加 。 由 正 交 多 项 式 表示 的 通 近 公式 对 使 用 者 来 说 
很 不 直观 ,建立 不 起 各 个 变量 之 间 的 直观 概念 。 


2. 发 现 学 习 


随 着 人 工 智能 技术 的 发 展 , 近 10 年 来 ,机 器 发 现 技 术 得 到 发 展 。 比 较 典型 的 系统 有 科 
学 定律 发 现 系 统 BACON .数学 概念 发 现 系 统 AM 等 。 它 们 都 产生 了 巨大 的 影响 。 

对 于 科学 发 现 的 自然 规律 ,用 数据 拟 合 的 方法 在 计算 机 上 是 绝对 得 不 出 来 的 ,只 能 采用 
新 的 途径 ,这 就 需要 用 人 工 智能 技术 来 完成 。BACON 系统 就 是 在 这 种 思想 指导 下 产生 的 。 

发 现 学 习 是 从 一 组 观测 结果 或 数据 利用 启发 式 求 出 这 些 数 据 的 一 个 或 多 个 规律 。 

例如 容器 中 的 气体 ,人 们 能 够 观察 到 的 具体 数据 是 温度 (T) ,体积 (V)、 压 强 (P) 和 克 分 
子 个 数 (N)。 它 们 之 间 的 规律 性 是 这 些 属性 项 之 间 的 关系 式 : PV/ NT= 常 数 。 公 式 发 现 
就 是 找 出 能 够 解释 给 定数 据 集合 的 最 本 质 的 规律 性 。 

发 现 学 习 有 两 种 方式 : 数据 驱动 方式 的 公式 发 现 和 模型 驱动 方式 的 概念 发 现 。 

数据 驱动 方式 的 公式 发 现 是 根据 在 搜索 数据 中 所 发 现 的 数据 规律 性 ,采用 不 同 的 启发 
式 发 现 动 作 , 在 一 系列 发 现 动作 之 后 形成 所 发 现 的 公式 规律 。BACON 系统 和 FDD 系统 是 
数据 驱动 的 公式 发 现 系 统 。 

模型 驱动 方式 的 概念 发 现 的 典型 例子 是 数学 概念 发 现 系统 AM。 它 包括 了 各 种 各 样 的 
搜索 法 (242 个 启发 式 规则 ) 指 导 在 数据 领域 中 的 搜索 ,从 集合 、 表 、 项 等 1000 多 个 基本 数学 
概念 出 发 ,AM 使 用 具体 化 、 一 般 化 类比、 复合 等 操作 去 产生 新 的 数学 概念 ,如 得 出 自然 数 、 
质数 等 重要 的 数学 概念 。AM 系统 还 找到 了 与 这 些 概 念 有 关 的 定性 规律 ,如 惟一 因子 分 解 
定理 等 。 


9.1.2 启发 式 与 数据 驱动 启发 式 


ps (x)= 1—30. 10 十 210 。 


十 630。 
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1. 启发 式 


启发 式 是 人 工 智 能 的 重要 方法 。 启 发 式 的 基本 定义 是 : 能 够 建议 合 情 的 行动 和 避免 不 
* 191， 


合 情 的 行动 的 知识 。 

通过 深入 的 研究 ,对 启发 式 有 了 更 深入 的 了 解 。 形 成 了 对 启发 式 的 如 下 新 观点 。 

(1) 通过 使 用 启发 式 规则 ,能 开发 新 的 知识 领域 

通过 使 用 这 些 既 能 建议 合 情 的 行动 ,又 能 排除 不 合 情 的 行动 的 启发 式 集 ,可 以 发 现 一 些 
全 新 的 概念 及 其 关系 。 

(2) 当 新 的 知识 领域 产生 和 演变 时 ,需要 新 的 启发 式 

当 引 入 一 些 新 的 建议 .定理 ,技术 规范 或 观察 到 的 现象 后 ,这 一 领域 可 能 随 之 改变 ,用 
于 处 理 这 一 领域 的 启发 式 也 会 变化 。 例 如 ,观察 一 个 用 于 制定 从 旧金山 到 伦敦 的 旅行 计划 
的 启发 式 集 , 近 些 年 来 ,加 入 了 许多 新 规则 ,而 修改 了 许多 旧 规 则 。 

(3) 能 用 启发 式 开发 新 的 启发 式 

启发 式 本 身 的 生长 通过 启发 式 来 引导 。 为 了 做 到 这 一 点 ,需要 很 多 类 型 的 启发 式 ( 如 一 
般 的 或 专用 的 等 )、 用 于 启发 式 的 知识 表示 以 及 关于 启发 式 属性 的 假设 等 。 

(4) 当 新 的 知识 领域 产生 和 进化 时 ,需要 新 的 知识 表示 。 新 的 知识 表示 也 能 由 启发 式 
于 


2. 数据 驱动 启发 式 


典型 的 BACON 系统 采用 了 数据 驱动 启发 式 , 通 过 启发 式 搜索 发 现 科学 定律 (公式 )。 

公式 发 现在 于 分 析 数据 (或 称 观测 值 ) 得 出 假说 (或 称 定律 )。 这 些 假 设 ( 定 律 ) 能 够 解释 
(或 概括 ) 这 些 数据 。 

信息 用 不 同 层次 的 描述 表示 ,其 中 最 底层 的 可 认为 是 数据 ,而 最 高 层 的 可 说 成 是 假说 ， 
中 间 层 次 则 是 这 两 个 概念 的 混合 。 一 个 层次 的 描述 既 作为 它 下 面 一 层 描述 的 假设 ,又 作为 
它 上 面 一 层 描述 的 数据 。 

BACON 的 启发 式 搜索 总 是 注意 两 个 数值 变量 之 间 增 加 和 减少 的 单调 关系 。 考 察 下 面 
一 条 递减 关系 的 启发 式 , 可 叙述 为 : 如 果 在 某 层次 的 描述 中 , 因 变 量 y 的 值 随 变 量 x 的 相应 
值 的 减少 而 增加 , 则 注意 y 和 x 之 间 的 单调 减少 关系 ,并 计算 > 关于 x 的 斜率 。 一 旦 某 种 
趋向 被 发 现 ,系统 就 计算 出 有 关 这 两 变量 组 成 直线 的 斜率 , 即 : 

如 果 发 现 y 是 x 的 线性 函数 ,其 斜率 为 m, 截 距 为 i,BACON 就 建立 一 个 斜率 变量 , 定 
义 为 (y 一 让 /zx, 和 一 个 截 距 变 量 为 y 一 mz。 

如 果 截 距 很 接近 于 零 值 ,BACON 就 定义 一 个 比率 变量 w/z。 

如 果 斜 率 是 常数 ,那么 系统 就 建立 两 个 新 的 变量 (和 i) ,用 来 定义 有 关 变 量 的 线性 
组 合 。 
如 果 该 斜率 是 变化 的 (它们 的 关系 是 非 线 性 的 ) ,那么 BACON 就 根据 关系 的 方向 和 所 
涉及 的 数 的 符号 去 计算 有 关 变 量 的 积 或 商 , 系 统 把 这 一 乘积 或 商 也 同样 作为 一 个 新 变量 对 
待 ,一旦 定义 了 一 个 新 变量 , 它 与 直接 观测 的 因 变 量 之 间 没 有 任何 差别 ,都 作为 变量 ,同时 去 
发 现 更 新 的 变量 关系 。 
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9.2 ”科学 定律 重新 发 现 系 统 


9.2.1 BACON 系统 基本 原理 


1. BACON 系统 的 思想 


BACON 系统 是 运用 人 工 智能 技术 从 试验 数据 中 寻找 其 规律 性 比较 成 功 的 一 个 系统 ， 
是 Pat Langley 于 1980 年 研制 的 。 它 运用 数据 驱动 方法 ,即使 用 的 规则 空间 与 假设 空间 是 
分 开 的 。 系 统 的 规则 空间 包括 若干 精练 算 子 ,通过 精练 算 子 修改 假设 。 所 谓 精 练 算 子 就 是 
修改 假设 空间 的 子 程序 ,每 个 精练 算 子 以 特定 的 方式 修改 假设 空间 。 整 个 学 习 程序 由 多 个 
精练 算 子 组 成 ,程序 使 用 探索 知识 对 提供 的 训练 例 进行 分 析 ,决定 选用 哪个 精练 算 子 。 这 类 
学 习 方法 的 大 致 步骤 为 : 

步骤 1 收集 某 些 训练 例 。 

步骤 2 ”对 训练 例 进 行 分 析 ,决定 应 该 使 用 的 精练 算 子 。 

步 又 3 使 用 选 出 的 算 子 修改 当前 的 假设 空间 。 

重复 执行 步骤 1 到 步骤 3 直到 取得 满意 的 假设 为 止 。 

BACON 系统 的 思想 是 程序 反复 地 考察 数据 并 使 用 精练 算 子 创造 新 项 ,直到 创造 的 这 
些 项 中 有 一 个 是 常数 时 为 止 。 于 是 一 个 概念 就 用 “项 三 常数 ”的 形式 表示 出 来 ,其 中 项 是 变 
量 运算 的 组 合 而 形成 的 表达 式 。 


2. BACON 系统 主要 精练 算 子 


BACON 系统 主要 精练 算 子 如 下 : 

(1) 发 现 常数 

当 某 一 属性 变量 取 某 一 值 至 少 两 次 的 时 候 , 和 触发 这 个 算 子 , 该 算 子 建立 这 个 变量 等 于 
常数 的 假设 。 

(2) 具体 化 

当 已 经 建立 的 假设 同 数据 相 矛 盾 时 触发 这 一 算 子 ,通过 增加 合 取 条 件 的 形式 把 假设 具 
体 化 。 

(3) 斜率 和 截 距 的 产生 

当 发 现 两 个 变量 是 线性 相互 依赖 时 触发 这 一 算 子 , 它 是 以 建立 线性 关系 的 斜率 和 截 距 

(4) 乘积 的 产生 

当 发 现 两 个 变量 以 相反 方向 递增 但 又 不 线性 依赖 时 触发 该 算 子 ,产生 两 个 变量 的 乘积 
作为 新 变量 。 

(5) 商 的 产生 

当 发 现 两 个 变量 以 相反 方向 递增 但 又 不 线性 依赖 时 触发 该 算 子 ,产生 两 个 变量 的 商 作 
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(6) 模 变量 的 产生 
当 发 现 两 个 变量 v 和 vw 在 模 某 一 数 n 相等 时 触发 这 一 算 子 ,产生 vs( mod n) 作 为 新 


变量 。 
9.2.2 BACON 系统 实例 
1. 开 普 勒 第 三 定律 的 发 现 


太阳 系 行星 运行 数据 包括 行星 运动 周期 p( 绕 太阳 一 周 所 需 的 时 间 ) 和 行星 与 太阳 的 距 
离 d( 绕 太阳 旋转 的 椭圆 轨道 的 长 半 轴 ) ,在 此 用 参照 数据 ,以 水 星 数据 为 单位 标准 , 见 表 
风光 


表 9.2 行星 运行 数据 


行星 p d 

水 星 1 1 

金星 8 4 

地 球 27 9 
利用 BACON 精练 算 子 发 现行 星 运行 规律 过 程 如 表 9. 3 所 示 。 

表 9%.3 行星 运行 规律 发 现 过 程 

行星 p d d/p di/p di/p’ 
水 星 1 1 1 1 
金星 8 4 Os 2 和 
地 球 2% 9 0. 33 4 1 
发 现 过 程 说 明 如 下 : 


(1) 变量 p 和 变量 4 都 是 递增 的 ,建立 两 变量 相 除 的 新 变量 d/p( 第 3 列 )。 
(2) 变量 4 与 变量 d/p 以 相反 方向 递增 ,建立 两 变量 相 乘 的 新 变量 d*/p( 第 4 
列 )。 
(3) 变量 d/p 与 变量 d?/p 以 相反 方向 递增 ,建立 两 变量 相 乘 的 新 变量 ds/p? (第 5 列 )。 
(4) 最 新 变量 心 / 瑚 是 常数 1 ,发 现 公 式 为 
d/p* =1 


2. 理想 气体 定律 的 发 现 


理想 气体 有 4 个 变量 : 体积 (V) .压强 (P) ,温度 (T) 和 克 分 子 个 数 (N) ,具体 数据 如 表 
9.4 所 示 。 


表 9.4 理想 气体 数据 


项 目 V F N 
五 .008 320 0 300 000 300 1 
卫 .006 240 0 400 000 300 
1s .0049920 500 000 300 1 
I .008 597 3 300 000 310 项 
Is .006 448 0 400 000 310 1 
I .005 158 4 500 000 310 1 
I .008 8747 300 000 320 1 
Te .006 656 0 400 000 320 了 
1, .005 3248 500 000 320 1 
Tzs .026 6240 300 000 320 3 
Tse .019 9680 400 000 320 3 
127 .015 9740 500 000 320 3 


为 了 发 现 它们 之 间 的 规律 , 先 取 变量 和 的 相同 的 数据 (如 前 3 列 中 T=300, N= 
1) ,对 变量 V 和 PP 进行 发 现 ,由 于 V、P 两 变量 以 相反 方向 递增 ,利用 BACON 精练 算 子 , 建 
立 两 变量 相 乘 的 新 变量 PV, 且 PV 等 于 常数 2496。 对 于 另 一 组 相同 的 数据 (T=310, N= 
1) ,利用 相同 方法 得 到 PV 的 新 常数 2579. 1999。 这 样 得 到 新 的 理想 气体 数据 ,如 表 9. 5 
所 示 。 
表 9.5 合并 PV 变量 后 的 理想 气体 数据 


项 目 PV T N 
I 2496 300 1 
Es 2579.199 9 310 | 
I 2622. 399 9 320 1 
I 4991. 999 9 300 2 
Es 5158. 399 9 310 
1 5324.799 9 320 2 
I 7488 300 3 
I 7737. 599 9 310 3 
的 7987.2 320 3 


从 表 9.4 到 表 9. 5, 合 并 了 变量 P 和 V 成 新 变量 PV, 它 和 变量 了 和 仍 是 3 个 变量 。 
为 了 有 效 地 发 现 它们 之 间 的 规律 , 仍 先 固定 变量 N ,研究 变量 PV 与 了 之 间 的 关系 。 表 9.5 
中 每 3 行 数据 均 为 N=1,2,3 时 的 数据 。 

分 析 在 N 一 常数 的 3 行 数据 中 ,变量 PV 与 T 是 以 相同 方向 递增 ,利用 BACON 精练 
算 子 建立 两 变量 相 除 的 新 变量 PV/T, 且 新 变量 等 于 常数 (不 同 N 时 ,PV/T 常数 不 同 )。 
这 样 得 到 的 理想 气体 数据 如 表 9.6 所 示 。 
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表 9.6 最 新 的 理想 气体 数据 


项 目 PWT N 
nn” 8.32 1 
了 16. 64 2 
Py 24.95 3 


对 表 9. 6 中 数据 , 它 是 两 变量 PV/T 与 N 的 数据 。 分 析 两 变量 PV/T 与 N 的 变化 关 
系 。 两 变量 以 相同 方向 递增 ,利用 BACON 精练 算 子 建立 两 变量 相 除 的 新 变量 PV/T/N= 
PV/(TN) ,得 到 常数 8. 32, 按 BACON 精练 算 子 ,发 现 公式 为 

PV/(NT) = 8.32 

BACON 系统 在 发 现 某 些 科学 定律 上 取得 很 大 成 功 ,但 是 BACON 系统 也 存在 很 多 弱 
点 。 第 一 个 弱点 是 BACON 系统 对 训练 例 所 取得 的 具体 值 特别 敏感 ,产生 这 种 情况 的 原因 
是 因为 每 一 个 精练 算 子 都 有 十 分 具体 的 触发 条 件 ,训练 例 的 值 一 变 ,或 者 提供 训练 例 的 次 序 
一 变 ,都 会 影响 规则 的 触发 。 例 如 ,对 某 一 类 训练 例 BACON 不 能 发 现 欧 姆 定律 ,如 果 变 量 
的 次 序 安排 得 不 够 好 ,BACON 发 现 单 摆 定 律 要 多 花 40% 的 时 间 。 第 二 个 弱点 是 BACON 
不 能 处 理 干扰 性 的 训练 例 。 例 如 ,发 现 常数 的 精练 算 子 的 触发 仅仅 是 根据 某 一 项 在 两 个 训 
练 例 的 值 相 等 。 这 种 触发 条 件 显 然 对 干扰 是 高 度 敏感 的 。 


9.2.3 BACON 系统 的 进展 


BACON 系统 共有 5 个 版 本 ,不 同 的 版 本 其 规则 空间 也 不 同 。 

(1) BACON. 1 提出 了 6 条 精练 算 子 , 发 现 了 开 普 勒 定律 。 

(2) BACON.2 是 BACON. 1 的 扩展 形式 ,包括 两 条 附加 的 运算 程序 ,能 够 发 现 递 归 序 
列 并 通过 计算 重复 差 的 方法 产生 多 项 式 ,BACON. 2 的 能 力 有 很 大 提高 ,可 以 解决 一 大 类 序 
列 外 推 的 任务 。 

(3) BACON. 3 是 BACON. 1 的 另 一 扩展 形式 ,使 用 发 现 常数 运算 程序 提出 的 假设 重 
新 构造 训练 例 。 它 用 不 同 的 描述 层次 来 表示 数据 ,其 中 最 低层 是 直接 观察 的 ,最 高 层 对 应 于 
数据 的 假说 ,中 间 层 相对 于 下 层 它 是 假说 ,相对 于 上 层 它 是 数据 , 它 不 把 假说 和 数据 截然 分 
开 。BACON. 3 由 大 约 86 个 产生 式 规则 组 成 , 共 分 7 组 ,各 组 产生 式 规则 负责 不 同 的 任务 ， 
有 的 负责 直接 搜索 观测 数据 ,有 的 负责 数据 的 规律 性 ,有 的 计算 项 的 值 , 有 的 把 新 项 分 解 为 
它 的 组 成 部 分 。 

BACON. 3 发 现 的 规律 有 : 

。 理想 气体 定律 : pv/ (ni) 二 ki 

。 Coulomb 定律 : fd’/(gig;)==k 

。 Galileo 定律 : dp?/(10D)? 二 ks 

。 Ohm 定律 : 1d?/ (1 一 kec) 二 kr 

(4) BACON. 4 把 观察 变量 的 组 合式 认为 是 推理 项 , 它 使 用 了 启发 式 搜索 方法 : 程序 总 
是 注意 两 个 数值 变量 之 间 增 加 和 减少 的 单调 关系 ,如 果 斜 率 为 常数 , 则 系统 建立 两 个 新 的 推 
理 项 (斜率 项 和 截 距 项 ) 作 为 有 关 变 量 的 线性 组 合 。 如 果 斜 率 是 变化 的 (不 是 线性 关系 ), 则 
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BACON. 4 计算 有 关 项 的 乘积 或 比值 ,并 把 这 个 变量 当 作 一 个 新 的 推理 项 ,一 旦 新 的 项 确定 
了 ,就 不 要 区 别 推理 项 和 观察 变量 。BACON. 4 递归 应 用 同样 试探 规则 ,使 系统 具有 相当 大 
的 发 现 经 验 规律 的 能 力 。 该 系统 还 提出 了 固有 性 质 解决 符号 变量 的 处 理 。 

BACON.4 又 发 现 了 若干 自然 规律 : 

。 Snell 折射 定律 : sin(i)/sin(r) 一 mm /ns 

。 能 量 守 恒定 律 : miv 二 mz vs 

。 万 有 引力 定律 : FF 二 Gmiwms/d; 

。 Black 比 热 定 律 : cmini 十 cmzts 二 (cimi 十 camz)ty 

(5) BACON. 5 用 简单 的 类 比 推理 发 现 守 恒定 律 ,对 两 个 物体 具有 完全 相同 的 有 关 项 ， 
BACON. 5 推测 最 后 的 定律 是 对 称 的 。 它 把 各 项 排序 ,使 得 属于 同一 物体 的 项 首先 改变 ,一 
且 该 物体 的 这 些 变量 中 发 现 一 个 不 变 推理 项 ,程序 就 假定 必 有 一 个 类 似 项 可 用 于 另 一 物体 。 
因此 ,BACON. 5 只 须 相 同 地 改变 另 一 个 项 集合 中 的 推理 项 。 当 做 了 这 点 之 后 ,两 个 高 层 项 
取 不 同 的 值 ,可 用 其 他 试探 规则 查找 它们 之 间 的 关系 。 这 样 ,在 物理 中 普遍 存在 的 对 称 定律 
可 以 很 容易 地 发 现 。 

BACON. 5 发 现 了 能 量 守恒 定律 。 


9.3 ”经 验 公式 发 现 系 统 


9.3.1 FDD 系统 基本 原理 


经 验 公 式 发 现 系 统 FDD(formula discovery from data) 是 我 们 应 用 人 工 智 能 技术 的 机 
器 发 现 技 术 和 数值 计算 中 的 曲线 拟 合 技术 以 及 可 视 化 技术 结合 起 来 自行 研制 的 系统 。 它 是 
从 大 量 试验 数据 中 发 现 的 经 验 公式 ,逐步 完成 任意 函数 的 任意 组 合 ( 线 性 组 合 、 初 等 运算 组 
合 、 复 合 函 数 运算 组 合 等 ) ,对 自然 规律 和 经 验 规律 的 发 现 。 

FDD 系统 有 3 个 版 本 : FDD. 1、FDD. 2、FDD. 3。 

FDD. 1 系统 能 够 发 现 变量 取 初 等 函数 或 复合 函数 的 组 合 公式 。FDD. 2 系统 能 够 发 现 
变量 取 导 数 的 公式 。FDD. 3 系统 能 发 现 多 变量 取 初 等 函数 或 复合 函数 的 组 合 公 式 。 


1. 问题 描述 


给 定 一 组 可 观察 变量 XCzrz，zz,… ,zw) 以 及 这 组 变量 的 试验 数据 Di (da ,da，… 
din)，i 二 1,2,…,m, 公 式 发 现 系统 找 出 该 组 变量 满足 的 数学 关系 式 :; (zi，zz，… ,rn) 一 c， 
其 中 c 为 常数 , 即 : 对 于 任意 一 组 试验 数据 (da ,di。，… ,di ) 均 满足 关系 式 f (da ,da ，…， 
din )=c。 

所 找 出 的 关系 式 f(z) 是 任何 形式 的 数学 公式 ,包括 分 段 函 数 。 

对 于 关系 式 f(x1，xs，… ,x,) 二 c 的 复杂 程度 可 分 为 : 

(1) 变量 的 初等 运算 : f(x,y) 二 x0y, 其 中 0 为 十 ,一 、* 、/ 之 一 。 

(2) 变量 的 初等 函数 运算 : f(x) 二 c, 其 中 f(x) 为 初等 函数 。 

(3) 初等 函数 的 任意 组 合 : f(x,y) 二 a1f(x)9as f(y)。 
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(4) 复合 函数 的 运算 : g(f(x))==c, 其 中 g(x)、f(x) 均 为 初等 函数 。 

(5) 复合 函数 的 任意 组 合 : h(aygi(f(z))9azsgs(f(y))), 其 中 h(x)、g(x)、f(x) 均 为 初 
等 函数 。 

(6) 多 个 初等 函数 的 组 合 : F(z,y)=a 户 (z)bas f(z),…,0arfi(y) ,其 中 f(x)、f(y) 
均 为 初等 函数 。 

(7) 分 段 函 数 : 对 于 不 连续 的 点 ,分 别 用 不 同 的 函数 加 以 描述 。 

以 上 是 对 两 个 变量 的 讨论 。 在 现实 世界 中 存在 着 多 变量 的 更 为 复杂 的 关系 ,在 公式 发 
现 过 程 中 采用 先 寻 找 两 变量 的 关系 ,再 逐步 扩充 为 多 变量 的 关系 的 方法 。 


2. FDD. 1 的 设计 思想 


FDD. 1 系统 的 基本 思想 是 利用 人 工 智能 启发 式 搜 索 函 数 原 型 ,寻找 具有 最 佳 线 性 允 近 
关系 的 函数 原型 ,并 结合 曲线 拟 合 技 术 及 可 视 化 技术 来 寻找 数据 间 的 规律 性 。 

启发 式 方法 是 求解 人 工 智能 问题 的 一 个 重要 方法 。 一 般 启 发 式 是 建立 启发 式 函 数 ,用 
以 引导 搜索 方向 ,以 便 用 尽量 少 的 搜索 次 数 , 从 开始 状态 达到 最 终 状 态 。 

FDD. 1 系统 在 执行 搜索 的 过 程 中 ,对 原型 函数 的 搜索 以 及 对 它们 的 组 合 函 数 的 搜索 ， 
也 是 一 种 组 合 爆炸 现象 。 为 解决 这 一 问题 ,在 设计 系统 时 采用 了 启发 式 方法 来 实现 。 

对 某 一 变量 取 初 等 函数 和 男 一 变量 的 初等 函数 或 该 变量 进行 线性 组 合 , 即 从 原型 库 中 
选取 允 近 效果 最 好 的 少数 几 个 初等 函数 作为 基 函 数 ,并 进一步 形成 组 合 函 数 ,直至 找到 最 后 
的 目标 函数 。FDD. 1 系统 的 启发 式 函数 形式 为 

fx2) = a+bfi(n) (9.5) 
dt = (a+bfi(z) — fr))/flrs) (9.6) 

总 是 选取 dt 最 小 的 f(x;) 作为 继续 搜索 的 当前 结 点 。 这 一 启发 式 函数 在 以 后 的 多 次 

应 用 中 证 明 是 有 效 的 。 


3. FDD. 1 系统 中 的 知识 


在 FDD. 1 系统 中 ,知识 采用 的 是 产生 式 规则 的 表示 形式 (if…then)。 主 要 的 基本 规则 
有 如 下 几 个 。 

规则 1 发 现 常 数 

当 某 一 变量 x 取 一 个 常数 , 则 建立 该 变量 等 于 常数 的 公式 , 即 x = c。 

规则 2 两 变量 的 初等 运算 组 合 

当 两 变量 进行 初等 运算 若 等 于 常数 , 则 建立 该 变量 的 初等 运算 关系 式 ， 

azi0gazzz 一 c， 其 中 0 为 十 .一 、* /之 一 。 

规则 3 ”变量 取 初等 函数 

当 某 变量 取 初 等 函数 等 于 常数 , 则 建立 该 变量 的 初等 函数 关系 式 : 

f(x)==c， 其 中 f(x) 为 初等 函数 。 

规则 4 两 变量 取 初 等 函数 的 线性 组 合 

两 变量 分 别 取 初等 函数 后 的 线性 组 合 等 于 常数 , 则 建立 两 变量 取 初 等 函数 的 线性 组 合 

.198 ， 


关系 式 : 
afi(ri)+asfe(r2)=e 

其 中 f(x) 、fi (zs) 为 初等 函数 。 

规则 5 某 变 量 取 某 一 初等 函数 与 男 一 变量 的 线性 组 合 

对 某 一 变量 x; 取 初 等 函数 后 与 男 一 变量 x; 进行 线性 组 合 , 若 为 常数 , 则 建立 关系 式 : 

Cf(xi)iterx; = ce 

规则 6 对 某 一 变量 x; 取 初等 函数 , 另 一 变量 x; 取 两 个 初等 函数 进行 线性 组 合 , 若 为 常 

数 , 则 建立 关系 式 : 
Cfi(xi) icesf xi)teglr;) =e 

规则 7 建立 新 变量 (启发 式 1) 

若 两 变量 的 某 初 等 运算 结果 接近 常数 , 则 建立 新 变量 为 该 两 变量 的 某 种 初等 运算 。 

规则 8 建立 某 变量 的 某 种 初等 函数 为 新 变量 (启发 式 2) 

若 某 变量 的 某 种 初等 函数 与 另 一 变量 或 它 的 初等 函数 进行 线性 组 合 接近 常数 , 则 建立 
该 变量 的 初等 函数 为 新 变量 。 

以 上 规则 的 能 套 或 递归 使 用 ,将 形成 变量 的 任意 函数 间 的 任意 组 合 。 在 应 用 规则 时 , 利 
用 可 视 化 技术 将 减少 各 种 函数 和 各 种 运算 的 选取 ,大 大 节省 了 搜索 时 间 。 


9.3.2 FDD.1 系统 结构 


1. 系统 结构 图 


FDD. 1 系统 结构 图 如 图 9. 1 所 示 ,该 系统 由 试验 数据 输入 数据 生成 器 .公式 发 现 控 
制 . 可 视 化 过 程 ,数据 项 .原型 选择 公式 生成 .误差 分 析 、 循 环 控制 ,公式 输出 与 可 视 化 显示 
10 个 模块 以 及 原型 算法 库 、 数 据 库 、 知 识 库 、 公 式 库 4 个 库 组 成 。 


试验 数据 输入 
数据 生成 器 | ~({ 数据 库 
mt | [am | Ce 
: 
4 优 过 公式 
| | 会 继续 发 现 
\ 公式 输出 与 
1 i 公式 桥 正 可 视 化 显示 
太原 型 公式 发 现 控制 
算法 库 


图 9.1 FDD.1 系 统 结构 图 
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2. 各 模块 说 明 


(1) 试验 数据 输入 (input data) 

提示 用 户 输 入 试验 数据 。 

(2) 数据 生成 器 (generator) 

此 模块 用 于 测试 系统 效果 。 给 定 一 个 已 知 公式 后 ,能 生成 一 批 数据 ,FDD. 1 系统 的 核 
心 程序 将 利用 这 些 数 据 找 出 给 定 的 公式 ,从 而 达到 测试 系统 的 公式 发 现 能 力 的 效果 。 此 模 
块 是 一 个 可 独立 执行 模块 。 

(3) 数据 库 (database) 

数据 库存 放 待 处 理 的 变量 数据 ,一 般 是 科学 和 工程 实验 数据 。 公 式 的 正确 与 否 与 数据 
的 规律 性 和 充分 性 密切 相关 。 系 统 本 身 可 提供 直接 输入 数据 的 功能 ,用 户 可 在 系统 的 提示 
下 将 数据 输入 。 也 可 用 数据 生成 器 为 系统 提供 数据 ,系统 将 其 按 一 定 的 格式 存储 起 来 ,存放 
在 数据 库 中 。 数 据 库 中 有 一 个 缓冲 区 , 供 系统 运行 时 存放 中 间 变 量 数据 以 及 实现 数据 的 移 
动 和 变化 。 

(4) 可 视 化 过 程 

此 模块 又 分 成 3 个 子 模块 : 

。 描绘 试验 数据 的 变化 趋势 。 

。 描绘 出 原型 算法 库 中 各 函数 原型 的 变化 规律 。 此 子 模块 具有 很 大 的 灵活 性 ,用 户 可 

根据 需要 随意 调用 所 选择 原型 ,以 描绘 其 变化 趋势 。 

。 描绘 所 发 现 的 公式 的 变化 规律 与 原始 数据 之 间 的 误差 分 布 状况 。 

(5) 公式 发 现 控制 模块 

此 模块 是 FDD. 1 的 核心 部 分 , 它 主要 是 利用 知识 库 中 的 知识 : 优选 函数 原型 .控制 继 
续 发 现 , 公 式 修 正 等 。 它 包含 : 初始 处 理 、 优 选 公式 ,继续 发 现 、 公 式 修正 4 个 子 模块 。 下 面 
对 这 4 个 子 模 块 的 功能 进行 说 明 

@ 初始 处 理 。 此 模块 的 主要 功能 有 两 个 ,其 一 是 根据 具体 情况 对 用 户 所 提供 的 数据 进 
行 初步 处 理 ; 其 二 是 在 多 变量 中 选择 两 个 变量 以 及 向 多 变量 的 过 渡 处 理 。 

@ 优选 公式 。 其 主要 功能 是 对 公式 库 中 提供 的 公式 根据 其 误差 逼近 情况 来 优选 函数 
原型 ,对 函数 原型 一 般 选 择 2 一 3 个 。 

@ 继续 发 现 。 此 模块 将 根据 误差 分 析 情 况 完成 如 下 功能 : 

。 建立 新 变量 。 

。 斯 倒 变 量 关系 。 

。 对 所 选择 的 函数 原型 进行 组 合 。 

由 公式 修正 。 这 是 在 输出 公式 之 前 所 必 经 的 一 个 过 程 ,此 过 程 将 根据 用 户 提供 的 误差 
要 求 决定 是 否 对 系统 所 发 现 的 公式 进行 修正 。 若 不 必修 正则 将 公式 送 入 “公式 输出 ”与 “可 
视 化 ”模块 。 和 否则 对 公式 进行 修正 。 目 前 系统 提供 了 3 种 公式 修正 方法 。 如 下 所 述 ， 

。 调和 级 数 回归 。 由 数学 分 析 可 知 ,对 任意 周期 函数 y= jz) ,可 以 用 三 角 函 数 的 傅 

里 叶 级 数 来 允 近 , 即 
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y= $7) 一 a 十 >) acosCjr) + bsin(jr)) (9.7) 


j=l 


将 组 试验 数据 ( x;，y;) 代 入 上 式 , 各 点 误差 值 以 调和 函数 方程 式 的 形式 表示 为 


大 三 ao 十 >) (acosCizi) + bjsin(jz;)) (9.8) 


1 一 1,2, 23 j= 1,2,…,m 
可 以 按 最 小 二 乘 原理 求 出 调和 级 数 中 各 未 知 系数 。 
。 用 直线 来 描述 误差 : 此 算法 和 公式 生成 模块 的 直线 拟 合法 类 似 。 
。 神经 元 网 络 方法 通 近 误差 郴 数 : 利 用 神经 元 网 络 中 函数 式 网 络 对 误差 函数 进行 计 
算 , 求 出 网 络 权 值 ,使 函数 型 网 络 允 近 该 误差 函数 。 函 数 型 网 络 选取 的 函数 为 
Sin(2krz) .cos(2krz) k=1,2,.,n 
(6) 数据 项 
程序 中 的 两 个 指针 变量 用 以 存放 在 多 个 变量 中 所 选择 出 的 两 个 变量 的 实验 数据 。 
(7) 原型 选择 
此 过 程 通过 调用 原型 算法 库 、 可 视 化 过 程 及 误差 分 析 模 块 提供 的 误差 进行 函数 原型 的 
选择 。 有 两 种 选择 方式 ， 
。 由 用 户 指定 选择 。 
。 通过 循环 控制 进行 顺序 选择 。 
(8) 公式 生成 
此 模块 主要 应 用 数值 分 析 中 的 曲线 拟 合 技 术 求 出 拟 合 公 式 的 系数 ,同时 生成 公式 。 
(9) 误差 分 析 模 块 
此 模块 的 主要 功能 是 对 公式 生成 模块 提供 的 公式 ,计算 相对 误差 并 对 各 公式 误差 进行 
比较 。 


10) 循环 控制 模块 
模块 设 有 一 个 控制 开关 ,对 "原型 选择 ”和 ”公式 发 现 控制 ?两 个 过 程 进 行 循环 运行 。 
11) 公式 输出 与 可 视 化 显示 
此 过 程 是 系统 所 要 执行 的 最 后 一 步 , 当 公式 发 现 控制 模块 决定 最 终 输出 公式 后 执行 此 
模块 ,输出 公式 并 进行 可 视 化 显示 。 这 样 用 户 可 以 很 直观 地 阅读 公式 ,并 了 解 所 发 现 的 公式 
允 近 实验 数据 的 情况 。 

(12) 原型 算法 库 

原型 是 构成 数学 公式 的 基本 单元 ,原型 算法 库 所 包括 的 原型 决定 了 系统 的 发 现 能 力 。 
本 系统 的 函数 原型 由 基本 原型 和 组 合 原 型 构成 。 

基本 原型 由 初等 函数 组 成 ,如 : zz 、 zs、z zsqrt(z)、 za log(z)、exp(z)、 
sin(z) ,cos(Xx) 等 。 

组 合 原型 由 初等 函数 的 初等 运算 组 合 而 成 ,如 : zsin(Cz)、zcos(z)、zexp(z)、zlg(z)、 
x llg(x) .x 'exp(x)\1/lg(x)、1/sqrt(x)\sin(x) 二 cos(x) 等 。 

在 原型 算法 库 中 ,每 个 原型 都 给 出 了 一 个 算法 ,只 不 过 每 个 算法 的 程序 结构 都 非常 
相似 。 


六 挟 
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用 户 还 可 以 根据 需要 随意 增加 、 删 除 原型 ,在 程序 运行 过 程 中 给 出 了 一 个 控制 参数 ,用 
户 可 通过 它 来 调用 所 需 算法 。 

(13) 知识 

知识 库 中 的 知识 用 于 构造 和 发 现 关 系 式 。 

(14) 公式 库 

公式 库 用 来 存放 在 系统 搜索 过 程 中 初步 选择 的 原型 函数 组 成 的 公式 ,以 备 公式 发 现 控 
制 模块 使 用 。 

公式 库 中 的 公式 包含 两 个 变量 取 某 原型 函数 的 线性 组 合 以 及 该 公式 的 允 近 误差 。 在 搜 
索 过 程 中 ,每 当 发 现 一 个 比较 可 行 的 公式 或 函数 原型 , 便 将 其 送 入 公式 库 等 待 下 一 步 的 选 
择 , 每 一 轮 选择 之 后 便 把 落选 的 公式 剔除 出 公式 库 , 直 至 发 现 满意 的 公式 为 止 。 


9.3.3 FDD.1 系统 实例 
1. 行星 运动 开 普 勒 第 三 定律 的 重新 发 现 


(1) 原始 数据 
原始 数据 如 表 9.7 所 示 。 
表 9%.7 行星 运行 的 近似 数据 


距离 1 4 9 16 25 36 49 64 81 100 


周期 p I 8 27 64 125 216 343 512 729 1000 


(2) 开 普 勒 第 三 定律 搜索 树 

对 于 行星 绕 太阳 运动 的 开 普 勒 第 三 定律 ,BACON 系统 利用 变量 的 乘除 运算 ,使 得 到 的 
新 变量 趋向 常数 的 思想 , 对 该 定律 重新 发 现 。 我 们 利用 变量 取 初 等 函数 的 线性 组 合 趋 向 直 
线 方 程 的 思想 ,对 该 定律 也 重新 发 现 , 公 式 发 现 的 搜索 树 如 图 9. 2 所 示 。 从 搜索 过 程 可 见 ， 
FDD. 1 系统 的 公式 的 发 现 过 程 与 BACON 系统 的 公式 发 现 过 程 是 完全 不 同 的 。 


(d, p). 
(qd,f(p)) (f(d),p) 


(a, log( p)) (q, sqrt( p)) (sqrt(d),p) (log(d),p) (1/dlog(a),p) 


dt=2.240 d=2.541l dt3.554 dt=2.538 dt=3.244 
(log(d), log( p)) (log(d), log( p)) 
dt=0.0001 dt=0.0002 


图 9.2 开 普 得 第 三 定律 公式 发 现 图 


公式 发 现 搜索 树 中 有 两 个 分 支 , 左 分 支 路 径 为 : 先 固定 d, 对 变量 p 求 各 原型 函数 
f(p), 用 4d 和 f(p) 拟 合 线性 方程 FCp) = 一 a 十 2, 其 中 是 常数 , 求 逼 近 f(p) 的 相对 误差 ， 
选 误差 最 小 的 函数 为 log(p) ,误差 为 2. 240 ,建立 新 变量 p' 二 log(p) ,并 固定 它 ,再 对 d 变量 
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求 各 原型 函数 g(d) ,对 log(p) 和 g(d) 拟 合 线性 方程 ,并 求 副 近 g(d) 的 相对 误差 ,选取 误差 
最 小 者 为 log(d) ,误差 为 0.00001, 调 用 公式 生成 模块 , 求 得 公式 及 系数 ,公式 为 
logio (d) 一 0.0 十 0.666 666 667logio (p) (9.9) 
即 d=p’ 
从 右 分 支 树 也 可 发 现 开 普 勒 第 三 定律 ,这 里 不 再 详 述 。 


2. 实例 数据 的 公式 发 现 


例如 , 炼 钢 厂 出 钢 时 所 用 盛 钢 水 的 钢 包 ,在 使 用 过 程 中 由 于 钢 液 及 炉渣 对 包 衬 耐火 材料 
的 侵蚀 ,使 其 容积 不 断 增 大 , 钢 包 的 容积 与 相应 的 使 用 次 数 ( 即 包 龄 ) 的 数据 如 表 9. 8 所 示 。 


表 9.8 钢 包 容积 数据 


使 用 次 数 zx 容积 y 使 用 次 数 zx 容积 y 
2 106. 42 I 110.59 
3 108. 20 14 110. 60 
4 109. 58 15 110. 90 
5 109.50 16 110.76 
LA 110. 00 18 111. 00 
8 109. 93 19 111. 20 
10 110. 49 


对 这 组 试验 数据 的 搜索 过 程 与 行星 运动 开 普 勤 第 三 定律 的 例子 相同 ,这 里 不 再 详细 令 
述 其 具体 发 现 过 程 , 只 给 出 了 它 的 公式 发 现 搜索 树 和 最 终 公 式 形式 ,并 与 有 关 《 计 算 方 法 引 
论 ;》 书 中 方法 及 结果 作 比较 ,公式 发 现 搜索 树 如 图 9. 3 所 示 。 


(x,») 


(G7) (f 0),») 
Go 10) (x,log(y) (Co sqrt(y)) (log(¥),y) (Lx,y) (lx*log(x),») 
dt=0.065 dt=0.0139 dt=0.0324 dt=1.745 dt=1.644 -dt=1.807 
(f(x1), log(»)) (lx, g(»)) 


(1/x, log(y)) (log(x), log(»)) (1l/x*log(x), log(y) (1/x,1/y) (1/x, sqrt(y)) (l/x, log(y)) 
dt=1.76363 dt=1.8228 dt=1.7797 dt=0.01647 dt=0.00823 ”dt=0.00349 


图 9.3 钢 包 容积 变化 公式 发 现 图 


从 右 分 支 开 始 搜索 ,得 到 了 组 成 公式 的 两 组 基 范 数 : (1/z,log(y)) 及 (1/zx,sqrt(x) )， 
调用 公式 发 现 模块 求 得 公式 及 系数 ,最 终 得 到 经 验 关系 式 为 
sqrt(y) = 10. 559 190 8 一 0.471 126 8/x, dt 一 0.008 233 (9. 10) 
log(y) = 2.047 2975 一 0.039 212 4/z， dt= 0.003 49 (9.11) 
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经 效果 分 析 均 满足 误差 要 求 。 

这 样 用 FDD. 1 系统 发 现 了 上 述 两 个 公式 。 

《计算 方法 引 论 ) 书 中 所 讲述 的 公式 为 

y = x/(0.008 966 十 0.000 830 12x) (9.12) 

公式 (9. 12) 是 人 们 根据 自己 的 专业 知识 和 经 验 ,并 根据 其 离散 点 在 图 上 分 布 形状 选择 
适当 的 曲线 公式 来 拟 合 数据 ,并 经 过 一 定 的 公式 变形 而 得 到 的 。 从 许多 试验 数据 的 分 布 状 
况 , 人 们 往往 看 不 出 它 的 具体 规律 ,因此 这 种 做 法 不 具有 普遍 性 ,而 且 具 有 一 定 的 盲目 性 。 
而 用 FDD. 1 发 现 经 验 公 式 并 不 一 定 要 求 用 户 的 经 验 和 专业 知识 ,用 户 只 提供 充分 的 试验 数 
据 , 并 作 一 些 简 单 的 交互 ,FDD. 1 系统 很 快 便 能 发 现 效果 良好 的 经 验 公 式 , 这 是 FDD 系统 
的 一 个 显著 优点 。 下 面 比较 用 FDD. 1 系统 发 现 的 公式 和 书 中 公式 所 拟 合 的 每 个 点 的 好 坏 。 

由 公式 (9. 10) \ 式 (9.11) \ 式 (9.12) 所 拟 合 的 每 个 点 的 y 值 分 别 用 yi 、ys 、ys 表 示 , 它 们 
各 点 的 值 如 表 9. 9 所 示 。 

表 9.9 3 个 公式 效果 比较 表 


1 1 / 
2 ?2 ya > 


7 
2 06.58 106. 58 06. 60 06. 42 
3 08. 20 108. 20 09. 19 08. 20 
4 09.02 109.02 09.01 09.58 
5 09. 51 109. 59 09. 50 09. 50 
7 10.08 110.08 10. 08 10. 00 
8 10. 25 110. 25 10. 26 09.93 
10 10.50 110. 50 10. 51 10. 49 
11 10.59 110. 59 110. 60 10.59 
14 10.79 110.79 10. 80 10. 60 
15 10. 84 110. 83 110. 85 10. 90 
16 10. 88 110. 87 110. 89 10.76 
18 10. 95 110. 94 10. 96 111.00 
19 110. 98 110. 98 110. 99 111. 20 


由 表 9. 9 的 数据 可 以 看 出 ,由 公式 (9. 10). 式 (9. 11) 所 得 到 的 拟 合 值 比 由 公式 (9. 12) 
的 双 近 值 更 加 精确 ,这 说 明了 FDD. 1 系统 发 现 试验 数据 的 经 验 公 式 是 成 功 的 。 


9.3.4 FDD.2 系统 


1. FDD. 2 问题 描述 


给 定 两 组 可 观察 变量 XCzk ，zz) 以 及 这 组 变量 的 实验 数据 Di (da ,da )，i 一 1,2，……m， 
公式 发 现 系 统 找 出 该 组 变量 满足 的 数学 关系 式 : f(x1, xs) 一 c = min, 其 中 为 常数 , 即 ; 
对 于 任意 一 组 实验 数据 (da ,da ), 均 满足 关系 式 f(da ,da) 一 c= min, 所 找 出 的 关系 式 
f(z) 是 任何 形式 的 数学 公式 。 

对 于 关系 式 f(x1, zo) 一 c = min 中 的 函数 f 的 复杂 程度 可 分 为 : 

。 变量 的 初等 运算 F(z,y) 一 zby, 其 中 0 是 十 .一 、* 、/ 之 一 ; 

.204 。 


。 变量 的 初等 函数 运算 f(x) 二 c, 其 中 f(x) 为 初等 函数 ; 

。 初等 函数 的 任意 组 合 f(x,y)==a1 f(x)0as f(y); 

。 复合 函数 的 运算 g(f(z))=c, 其 中 g(x)、f(x) 均 为 初等 函数 ; 
。 导数 处 理 函数 。 

设 给 出 的 测量 数据 如 下 : 


1 2 N 
x Al Ty pe Tn 
Y yi yz > yn 


则 ;一 阶 差分 ; Amz 王 zt 一 Ayr 二 yn 一 yk 二 1,2,"…,n 一 1) 
二 阶 差分 ; A?y== AytHi 一 AytyAzzr 一 Axiti 一 Axi, (k=1,2,.,n—2) 


m 阶 差分 : A”"yi 二 A"! yn 一 A”!yi ,在 这 里 差分 指向 前 差分 。 
一 阶 差 商 : 6y4 二 (yini 一 yi) /rin—z), (k=1,2,. ,nC—1) 
二 阶 差 商 ; y= 二 (6yppi 一 6y1)/ (zits—Xi), (k=1,2,.,n—2) 


m 阶 差 商 : "办 一 (0 ly 一 0" 1 yi)/ (zitn— Zz) 
可 以 用 导数 表达 差 商 ,车 f(x) 在 [a,6j 上 次 可 微 ,zz2,… ,x 是 [a,0j 内 的 (n) 个 不 
同 的 点 , 则 有 &la 达 &<) 使 "TYy = 二 1? 了 (8)/(n 一 1)1。 


2. FDD.2 规则 描述 


在 FDD.2 系统 中 ,知识 同样 采用 的 是 产生 式 规则 的 表示 形式 (if…then)。 包 括 FDD. 1 
系统 的 规则 外 ,还 包括 如 下 规则 。 

规则 1 差分 发 现 常 数 

当 某 一 变量 差分 Ay 取 一 个 常数 c , 则 建立 该 差分 变量 等 于 常数 的 公式 , 即 y= a 十 cx。 

规则 2 ” 差 商 发 现 常数 

当 两 个 变量 差 商 取 一 个 常数 c, 则 建立 该 变量 导数 等 于 常数 的 公式 , 即 y = c。 

规则 3 特殊 函数 形式 导数 函数 

(1) 阶 差 (向 前 差分 ) 法 判定 类 型 

。 若 A?y; 二 定 值 , 则 方程 为 y==a 十 bx 十 cx?; 

。 若 A’y; 二 定 值 , 则 方程 为 y=a 十 bx 十 cx? 十 dz; 

。 若 A(ly;) 1! 二 定 值 , 则 方程 为 y! =atbr; 

。 若 A: (yi) 二 定 值 , 则 方程 为 y =a 十 bx 十 cx?; 

。 若 A (xi/yi)= 二 定 值 , 则 方程 为 y= 二 x/ (a 十 bx 十 cx?); 

。 车 Ay; 成 等 比 数列 , 则 方程 为 y==ab” 十 c; 

。 若 Alog(y;) 成 等 比 数列 , 则 方程 为 log(y)== a 二 brtcr?; 

。 车 Ay; 成 等 比 数列 , 则 方程 为 > 一 a 好 十 cz 十 d。 

(2) 差 商 判定 类 型 
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若 Alog(Cyw)/Alog(zi) 一 定 值 , 则 方程 为 logy 一 az 
若 Alog(yw)/Az 一 定 值 , 则 方程 为 > 一 ar 
若 ACziyi)/Azri 一 定 值 , 则 方程 为 > 一 a 十 p/rs 
车 ACziy)/Azri 一 定 值 , 则 方程 为 y 一 z/(az 十 0)3 
。 若 Ayi/A(xi)? 二 定 值 , 则 方程 为 y=a 十 bx?。 
规则 4 两 变量 的 导数 运算 组 合 
当 某 变量 差分 (或 差 商 ) 后 与 另 一 变量 进行 初等 运算 , 若 等 于 常数 , 则 建立 该 变量 差分 
(或 差 商 ) 的 初等 运算 关系 式 


Af(r)NO f(r) = ee 

其 中 0 是 十 一 、* /之 一 ,其 中 Af 为 差分 或 差 商 计算 。 

规则 5” 两 变量 取 导 数 运 算 的 线性 组 合 

两 变量 分 别 取 导数 运算 后 的 线性 组 合 等 于 常数 c, 则 建立 两 变量 取 导 数 运 算 的 线性 组 
合 关系 式 

a Afi(zi)+asAfi(xz) 一 < 

其 中 Afi(xi)、Afs (zs) 为 导数 运算 。 

以 上 规则 和 FDD. 1 中 规则 的 嵌 套 或 递归 使 用 ,将 形成 变量 的 任意 函数 和 导数 运算 
组 合 。 


3. FDD.2 公式 发 现实 例 


(1) 导数 函数 公式 的 发 现 
Z、\y 为 样本 数据 ,Y 为 发 现 的 公式 计算 值 , 见 表 9. 10 所 示 。 


表 9.10 导数 函数 公式 的 发 现 


E43 1.01 2.07 2.98 | 7.89 | 7.02 | 6.03 | 6.98 | 8.01 | 9.04 | 9.99 | 11.02 |12.01| 12.97 


y 4.61 10.51 | 14.65 | 14.61 | 11.08 | 10.2 | 12.6 | 18.27 | 27.3 | 24.46 | 22.08 | 19.72 | 20.93 


4.667 | 10.662 |14.248|14. 524|11. 741|10. 383|12. 679|18. 263|27. 174|24. 257|22. 045|19.965| 21. 115 


发 现 导 数 函 数 公式 为 y 二 1. 52 一 4.34sin(z) ,误差 为 0.048。 
(2) 复合 函数 公式 的 发 现 
数据 如 表 9. 11 所 示 。 

表 9.11 复合 函数 公式 的 发 现 


x |0.10| 0.12 | 0.23 | 0.25 | 0.30 | 0.26 | 0.55 | 0.76 | 0.81 | 0.89 | 0.91 | 1.01 | 1.44 | 1.50 
y |7.146|7.288 | 6.156 | 6.329 | 6.782 | 6.417 | 9. 532 |12. 588|17. 443|14. 936|17. 337| 17. 53 | 37. 81 | 47.02 


Yi |4.899| 5.044 | 5.924 | 6.10 | 6.561 |6.190 |9.371 | 12.51 |13. 385|14. 921|15. 334| 17. 59 | 36. 50 | 43. 98 
Y, | 6.65 | 6.66 | 6.67 | 6.80 | 6.92 | 6.82 | 8.38 |11. 236|12. 204|14. 021|14. 530| 17. 43 | 37.91 | 41. 98 
Ys |7.185| 7.310 | 6.07 | 6.228 | 6.636 | 6.306 | 9. 268 |12. 525|17. 491|17. 223|17. 696| 18. 33 | 37.0 | 40. 99 


发 现 公 式 为 Yi 二 7.94z 一 11. 64log(|cos(x)|) 十 4.25, 公 式 的 误差 为 0.095, 如 图 9.4 
所 示 。 
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另外 还 发 现 两 个 公式 ， Be 
Ya: = 6.639 005 246 十 10.471 877 51x’ y 
sqrt(Y3) = 0. 926 907 91 + 1.221 648 810er 


9.3.5 FDD.3 系统 a 
1. 多 维 函 数 空间 定义 最 Wp 


多 维 函数 空间 由 初等 函数 ,初等 函数 组 |" 上 . _ 
合 、 复 合 函 数 、 复 合 函 数组 合 、 函 数 导数 等 组 人 
成 。 初 等 函数 组 合 是 初等 函数 之 间 运 算 组 图 9.4 复合 函数 公式 发 现 
合 ;导数 处 理 包 括 一 阶 差分 、 二 阶 差分 一 阶 
差 商 , 二 阶 差 商 等 。 多 维 函数 空间 的 构造 如 下 : 

定义 ” 设 多 维 函 数 空间 Q: 0Q== 二 P,V,C 放 ,其 中 ， 

。P 二 (有,，f;,… ,fm}) 是 一 个 多 元 函数 集 ,f; 是 多 元 函数 ; 

。V=={wi ,ve，… ,ve) 是 一 个 有 穷 变 元 集 ; 

。C={cycs ,C4) 是 一 个 有 穷 常数 集 。 

PP 函数 集 可 以 包括 : 

。 算术 运算 (如 十 一、X /等 ); 

。 初等 函数 (如 1、x! x?、z ,sin、cos、exp、log 等 一 元 函数 ); 

。 导数 函数 。 


2. 多 维 函 数 空间 性 质 


从 以 上 定义 可 以 看 出 ,多 维 函 数 空间 具有 如 下 性 质 : 

性 质 1 在 多 维 函 数 空间 中 , 设 E = VUC, 满 足 条 件 : 

(1) 对 Ve, 若 eEE, 则 e€EQ; 

(2) 对 Vf,eis 若 f EP, e;EE, 则 f(ei,es,…,e,)EQ,i= 二 1,2,…,n, 即 函数 作用 于 变 
元 或 常数 仍然 属于 函数 空间 ; 

(3) 车 pis,psos… ,ps€EQ, 则 对 Vf EP, 了 (pi,ps，…,p,)EQ, 即 函数 作用 于 函数 仍然 
属于 函数 空间 。 

性 质 2 由 于 函数 作用 于 变 元 或 常数 和 函数 作用 于 函数 仍然 是 函数 , 故 函 数 空间 是 封 
闭 的 。 

对 于 在 函数 空间 上 的 任意 函数 组 合 仍然 在 函数 空间 中 ,这 样 为 计算 机 对 函数 空间 的 处 
理 提供 了 可 以 递归 的 前 提 。 在 函数 空间 中 的 函数 集合 可 以 组 成 解决 问题 的 原型 库 。 原 型 库 
一 般 包括 初等 函数 ,组 合 函 数 、 复 合 函 数 ,还 包括 差分 计算 、 差 商 计 算 以 及 导数 计算 等 。 


3 . FDD. 3 规则 内 容 


系统 中 的 知识 采用 产生 式 规则 表示 形式 (if…then) ,规则 内 容 包 括 函 数 规则 和 控制 规 
则 。 函 数 规则 组 成 知识 库 , 知 识 库 不 仅 包括 FDD. 1 系统 规则 、FDD. 2 系统 规则 ,还 包括 以 
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下 规则 。 

(1) 函数 规则 (funrule) 

对 某 一 变量 x 取 函 数 空间 中 的 一 个 函数 f; 后 ,与 男 一 变量 y 的 函数 f ;进行 线性 组 合 ， 
得 到 函数 公式 后 ,代入 xz 和 y 的 值 , 取 函 数 公式 两 边 值 的 误差 最 小 , 则 有 函数 公式 : 

Cifi(x)+C fi(y)=C, fisfi EP, Cs,C, Cs EC 

(2) 函数 舱 套 规则 

对 函数 规则 符 套 或 递归 使 用 ,将 形成 变量 的 任意 组 合 。 

(3) 误差 规则 (errrule) 

。 误差 最 小 规则 : 选择 误差 最 小 的 公式 进入 下 一 次 迭代 。 

。 误差 收敛 规则 : 保留 误差 减 小 的 搜索 方向 ,上 一 次 迭代 的 误差 大 于 目前 的 误差 , 则 

对 于 这 一 搜索 方向 予以 保留 。 

(4) 终止 规则 (endrule) 

终止 准则 由 两 部 分 组 成 ,一 是 强制 终止 , 另 一 个 是 自然 终止 。 强 制 终止 通过 对 算法 参数 
的 设 定 , 主 要 是 通过 对 迭代 次 数 的 设 定 完 成 终止 准则 ;自然 终止 有 两 种 情况 组 成 ,一 种 情况 
是 找到 一 组 满足 给 定 误差 的 公式 , 另 一 种 情况 是 判断 出 误差 增 大 时 , 则 停止 该 路 径 的 搜索 。 

(5) 多 维 函 数 扩展 规则 (multirule) 

g@ 扩展 到 三 维 函 数 公式 的 启发 式 规则 

设 给 定 n 组 不 同 的 数据 {x 外 ,x 多 ,zx 罗 ) ,k=1,2,…,n, 存 在 不 同 的 函数 fi 、fi、fs、fi， 
以 及 常量 C1 .Cs、Bi、Bs, 有 如 下 函数 关系 : 

。 如 果 在 固定 zs 的 情况 下 得 出 zx, 和 x; 的 方程 为 


en de py (9. 13) 
在 固定 zz 的 情况 下 得 出 zx 和 zs 的 方程 为 
dy = Br (9.14) 


从 严格 意义 上 讲 , 在 式 (9. 13) 中 常数 C1、Cs 是 x; 的 函数 ;在 式 (9.14) 中 的 常数 B, 、B; 是 
zz 的 函数 。 对 于 同一 函数 户 (zi) 应 该 有 关于 zs 和 zs 的 统一 的 公式 , 故 对 户 (zi) 而 言 ,在 式 
(9.13) 中 确定 了 zi 与 zs 的 关系 , 式 (9.13) 中 确定 了 zi 与 zs 的 关系 ,合并 式 (9.13) 、 式 
(9.14), 有 如 下 启发 式 公 式 : 


fulziy = CifiCr) filtres) + C0’ (9.15) 
filzi) = Cifs(za) tCafs(zs) tC’", (9. 16) 
。 如 果 在 固定 zz 的 情况 下 得 出 zi 和 zs 的 方程 为 : 
(zi) = Bifi(zxs)+ Bs C9. 17) 
合并 式 (9.13) 和 式 (9.17), 则 有 如 下 多 个 启发 式 公 式 : 
fiz ofs (xr) = (Cfalxz) t+ C2)0(Bi f(xs) + BY) (9. 18) 
其 中 9 是 十 、 一 、* 、/ 等 操作 。 或 者 : 
fi(z1) = g(xz1s7T2) + COC f(rs)t Ce fxs)t Cs (9. 19) 


8 函数 的 结构 形式 实质 上 是 函数 疡 和 fs 的 复合 形式 ,由 于 f; 和 fs 有 系数 项 也 有 常数 
项 , 故 f; 和 f; 复 合 函 数 形式 根据 具体 函数 的 不 同 有 不 同 的 合并 方式 ,常见 的 是 用 一 个 公 
的 函数 项 去 蔡 换 另外 一 个 公式 的 系数 和 常数 。 
。 208 » 


名 扩展 到 四 维 函 数 公式 的 启发 式 规则 
设 在 三 维 数据 的 基础 上 增加 一 维 数据 zx, ,如 果 得 到 公式 


JPz(zz) = Cig(xis7x3)+ Cs (9. 20) 
PCz) = CCzD) 十 C， (9. 21) 
则 有 如 下 启发 式 公 式 : 
fa(zxz) = Cig(zxisz3)fi (zs) Ce (9. 22) 
felx2) = Cig(xisxs) + Cofixr) tCs (9.23) 
@ 多 维 函数 的 扩展 


通过 增加 函数 变量 的 方法 可 以 实现 对 多 维 函 数 变 量 公式 的 发 现 。 多 维 函 数 扩展 规则 给 
出 了 函数 公式 的 具体 框架 表示 形式 ,最 后 必须 通过 给 定 的 数据 对 各 个 启发 式 公 式 进行 检验 ， 
决定 公式 的 取舍 。 首 先 ,通过 实际 给 出 的 数据 应 用 最 小 二 乘法 计算 上 式 中 各 个 常量 的 值 ; 其 
次 通过 给 定 的 数据 确定 各 个 启发 式 公 式 的 误差 ,最 后 进行 选择 ,满足 误差 需求 的 公式 即 为 所 
求 公式 。 


4. 三 维 函 数 公式 的 发 现实 例 


(1) 试验 数据 
给 定 试验 数据 如 表 9. 12 所 示 。 


表 9.12 三 维 数据 实例 


对 于 前 5 组 数据 ,可 以 认为 zi 为 恒定 ,应 用 二 维 函 数 公式 发 现 算法 , 找 出 变量 rs 和 zs 的 
关系 ,得 到 5 个 公式 ,选择 误差 最 小 的 一 个 公式 如 下 : 
ZX3 一 2.02cos(zs) 十 4.46， 误差 为 0.0016 (9. 24) 
对 于 后 5 组 数据 ,可 以 认为 x 为 恒定 ,应 用 二 维 函数 公式 发 现 算法 ,得 到 3 个 公式 , 选 
择 误差 最 小 的 两 个 公式 如 下 : 
ZX? 二 1. 5sin(xi) 十 7.75， 误差 为 0.00026 (9. 25) 
lg(zs) 二 0.07sin(x1) 十 0.29， 误差 为 0.00015 (9. 26) 
应 用 三 维 启发 规则 ,将 式 (9. 24) 和 式 (9. 25) 合 并 , 式 (9. 24) 和 式 (9. 26) 合 并 ,得 到 一 系 
列 公式 ,计算 误差 后 得 到 满足 误差 要 求 的 公式 为 
好 一 1.5sin(z) 十 2.02cos(Czs) 十 7.0 (9.27) 
该 公式 等 式 两 端 误差 为 0.00041 。 
(2) 折射 定律 的 发 现 
实验 数据 如 表 9. 13 所 示 ( 液 体 ,温度 为 20C ) 。 
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表 9.13 不 同 介质 间 光 线 折射 数据 


物质 从 空气 中 入 射 率 n(nm .i 恒定 ) 从 空气 射 人 玻璃 (x ,ns 恒定 ) 
折射 率 me 入 射 角 i 折射 角 y 入 射 角 折射 角 7 
丙酮 1. 3585 30 21. 60 30 19. 47 
葵 腕 1.5863 30 18. 37 35 22. 48 
苯 1. 5014 30 19. 45 40 27.37 
二 硫化 碳 1. 6279 30 17. 89 45 28.13 
四 氧化 碳 1. 4607 30 20. 02 50 0 7 
肉桂 醋 1.6195 30 17. 16 55 37.10 
氯仿 1. 4453 30 20. 24 60 37. 26 
乙醇 1. 3618 30 21. 54 
设 入 射 角 为 i, 折射 角 为 7, 入 射线 所 在 介质 的 折射 率 为 m ,折射 线 所 在 介质 的 折射 率 为 
7 。 因 为 光 的 可 逆 性 ,所 以 人 射 角 和 入 射线 的 折射 率 与 折射 角 和 折射 线 的 折射 率 两 组 数据 


可 以 互 换 , 折 射 角 7 改 为 人 射 角 i, 入 射 角 i 变 为 折射 角 7, 入 射线 和 折射 线 所 在 位 置 的 折射 
率 也 相应 地 调换 。 

对 于 从 空气 中 入 射 到 各 介质 ,固定 ni 和 i 角 后 ,应 用 二 维 函数 公式 发 现 算法 ,得 到 折射 
率 和 折射 角 的 公式 


sin(Y) = 0. 5/nz (9. 28) 
反之 ,从 介质 中 入 射 到 空气 时 (ni 变 为 n, ,i 角 变 为 7 角 ) ,固定 nw, 和 YY 角 后 ,发 现 公 式 为 
sin(i) = 0.5/m (9. 29) 


在 固定 空气 和 玻璃 两 种 介质 时 (m .ns 恒定 ), 入 射 角 i 和 折射 角 y 的 关系 ,通过 公式 发 
现 得 : 
sin(z) = 1. 5sin(7) (9. 30) 
式 (9. 28) 和 式 (9. 29) 两 个 公式 从 空气 中 入 射 不 同 物质 的 数据 中 生成 , 式 (9. 30) 为 从 空 
气 中 入 射 玻璃 的 一 组 数据 中 生成 。 式 (9. 29) 和 式 (9. 30) 应 用 三 维 扩展 规则 得 : 


sin(i) = Cisin(y)/n 十 C2， 即 sin(y) = C? msin(i)+ C2 (9.31) 
对 式 (9. 28) 和 式 (9. 31) 利 用 四 维 扩展 规则 进行 合并 ,得 : 
sin(y) = C1 Gu /ns)sin(i) + C,” (9. 32) 
用 已 知 的 数据 确定 系数 , 得 C1” 二 1,Cs” 二 0, 即 得 Snell 折射 定律 : 
msin(i) = nsin(7) 《9. 33) 


5. FDD.1、FDD.2 和 FDD.3 的 比较 分 析 


FDD. 2 通过 引入 导数 规则 对 FDD. 1 算法 的 规则 进行 扩充 ,同时 修改 算法 流程 ,使 得 算 
法 运行 更 加 合理 ,扩大 了 发 现 公 式 的 宽度 和 广度 。FDD. 3 算法 引入 多 维 函 数 处 理 规 则 后 对 
FDD. 2 算法 进行 了 扩充 ,同时 通过 嵌 套 FDD. 2 算法 流程 ,实现 三 维 以 上 公式 发 现 算法 
FDD. 3。 把 这 3 个 进行 比较 分 析 , 如 表 9. 14 所 示 。 
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表 9.14 FDD.1、FDD.2 和 FDD.3 的 比较 分 析 


比较 方面 FDD.1 FDD.2 FDD. 3 

时 间 复 杂 度 O(8nm) O(2n2m) OCC32nm) 

流程 循环 函数 作用 于 一 个 变量 es li 

误差 最 小 原则 误差 最 小 原则 

台 核 葵 作 达 过 最 小 训 央 误差 收敛 原则 误差 收 仇 原则 
在 FDD. 1 基础 上 增加 | 在 二 维 FDD 基础 上 增 
a 

发 现 公式 范围 名作 入会 和 可 必 基 | 导数 以 及 和 导数 相关 | 加 三 维 扩展 规则 、 多 

人 的 处 理 维 扩 展 规则 


注 : n 为 函数 个 数 ,m 为 搜索 树 的 深度 ,d 为 维 数 。 


在 进行 算法 的 时 间 复 杂 度 分 析 时 ,由 于 搜索 树 的 剪 枝 根据 具体 情况 的 不 同 而 不 同 ,所 以 
假设 在 没有 剪 枝 的 情况 下 分 析 各 个 算法 的 时 间 复 杂 度 。 由 于 算法 流程 的 不 同 , 在 发 现 同样 
形式 的 公式 情况 下 ,FDD. 1 和 FDD. 2、FDD. 3 搜索 树 的 深度 不 同 ,FDD. 1 算法 搜索 树 深度 
是 FDD.2、FDD. 3 算法 的 两 倍 。 

在 FDD. 1 算法 中 ,每 个 函数 对 两 个 变量 分 别 作 用 的 时 间 复 杂 度 为 0(2n) ,选择 两 个 误 
差 小 的 进入 下 面 的 分 支 , 并 且 树 的 深度 是 2m, 则 时 间 复 杂 度 为 O(8nm) 。 

在 FDD. 2 算法 中 ,两 个 函数 同时 作用 于 两 个 变量 的 时 间 复 杂 度 为 O(nn) ,选择 误差 小 
的 和 误差 收敛 的 进入 下 一 个 循环 , 则 时 间 复 杂 度 为 O(2nnm)。 在 FDD. 3 算法 中 , 设 函 数 的 
维 数 为 d, 则 任 取 其 中 的 两 个 变量 的 组 合 为 G3 个 ,所 以 整个 算法 的 时 间 复 杂 度 为 
OC(Ci2n:m) 。FDD. 3 算法 的 发 现 公式 的 广度 是 以 牺牲 时 间 为 代价 的 。 

BACON 系统 采用 “项 二 常数 ”的 形式 描述 公式 形式 ,而 FDD 采用 “项 二 初等 函数 或 初 
等 函数 的 复合 形式 ”, 并 且 引 入 导数 规则 等 ,和 BACON 相 比 ,发 现 公 式 的 范围 和 复杂 度 都 有 
很 大 提高 。 


习 题 


. 数据 拟 合 的 基本 思想 是 什么 ? 有 什么 优点 和 缺点 ? 
. 从 BACON 系统 的 实例 看 ,公式 发 现 与 数据 拟 合 有 什么 不 同 ? 
. BACON 系统 的 简练 算 子 有 哪些 ? 

. BACON 系统 是 如 何 完成 开 普 勒 第 三 定律 的 发 现 的? 
. BACON 系统 是 如 何 发 现 理想 气体 定律 的 ? 

. BACON 系统 的 启发 式 是 什么 ? 

. 科学 定律 运用 曲线 拟 合 能 发 现 吗 ? 

. FDD 系统 的 思想 是 什么 ? 

. FDD. 1 系统 的 启发 式 函数 是 什么 ? 

10. FDD. 1 系统 结构 图 的 基本 思想 是 什么 ? 

11. FDD. 1 系统 中 函数 原型 有 哪些 ? 


oT 人 wD 
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12. FDD. 1 系统 中 的 知识 有 哪些 ? 

13. FDD. 1 系统 完成 开 普 勒 第 三 定律 发 现 的 过 程 是 什么 ? 它 与 BACON 系统 的 发 现 
过 程 有 什么 不 同 ? 

14. FDD. 2 发 现 导数 公式 的 启发 式 是 什么 ? 

15. FDD. 3 发 现 多 维 函 数 公式 的 启发 式 是 什么 ? 

16. FDD 系统 与 BACON 系统 有 什么 不 同 ? 
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委 10 剖 ”神经 网 绍 与 遗传 算法 


J 


10.1 神经 网 络 概念 及 几何 意义 


10.1.1 神经 网 络 原理 
1. 人 工 神经 网 络 概念 


神经 生理 学 家 和 神经 解剖 学 家 早已 证 明 , 人 的 思维 是 通过 人 脑 完成 的 ,神经 元 是 组 成 人 
脑 的 最 基本 单元 ,人 脑 神经 元 大 约 有 1024 一 102 个 ( 约 1000 一 10 000 亿 个 ) 。 

神经 元 由 细胞 体 . 树 突 和 轴 突 三 部 分 组 成 ,是 一 种 根 须 状 的 曼 延 物 。 神 经 元 的 中 心 有 一 
闭 点 , 称 为 细胞 体 , 它 能 对 接收 到 的 信息 进行 处 理 。 细 胞 体 周围 的 纤维 有 两 类 , 轴 突 是 较 长 
的 神经 纤维 ,是 发 出 信息 的 。 树 突 的 神经 纤维 较 短 ,而 分 支 很 多 ,是 接收 信息 的 。 一 个 神经 
元 的 轴 突 末端 与 另 一 个 神经 元 的 树 突 之 间 密 切 接触 ,传递 神经 元 冲动 的 地 方 称 为 突 触 。 经 
过 突 触 的 信息 传递 是 有 方向 性 的 ,不 同 的 突 触 进行 的 冲动 传递 效果 不 一 样 ,有 的 使 后 一 神经 
元 发 生 兴奋 ,有 的 使 它 受到 抑制 。 每 个 神经 元 可 有 10 一 10: 个 突 触 。 这 表明 大 脑 是 一 个 广 
泛 连 接 的 复杂 网 络 系统 。 从 信息 处 理 功能 看 ,神经 元 具有 如 下 性 质 ， 

(1) 多 输入 单 输出 ; 

(2) 突 触 兼 有 兴奋 和 抑制 两 种 性 能 ; 

(3) 可 时 间 加 权 和 空间 加 权 ; 

(4) 可 产生 脉冲 ; 

(5) 脉冲 进行 传递 ; 

(6) 非 线性 (有 阔 值 ) 。 

神经 元 的 数学 模型 如 图 10. 1 所 示 。 


图 10.1 神经 元 模型 


图 10. 1 中 Vi Vs V, 为 输入 ;U: 为 第 ;个 神经 元 的 输出 ; T 为 外 面神经 元 与 
该 神经 元 连接 强度 ( 即 权 ) ,0 为 值 , 7(X) 为 该 神经 元 的 作用 函数 。 
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2. MP 模型 与 Hebb 规则 


(1) MP(Mecculloch 和 Pitts) 模 型 
每 个 神经 元 的 状态 Si(i 王 1,2,…,z) 只 取 0 或 1, 分 别 代表 抑制 与 兴奋 。 每 个 神经 元 的 
状态 由 MP 方程 决定 : 
S; = /2 i -0)， i = 1,2)00n (10.1) 


其 中 w; 是 神经 元 之 间 的 连接 强度 ,twwi 二 0,rwwj (i 关门 是 可 调 实 数 , 由 学 习 过 程 来 调整 。0; 是 
阔 值 , ACz) 是 阶梯 函数 。 

(2) Hebb 规则 

Hebb 学 习 规 则 : 若 ; 与 ) 两 种 神经 元 之 间 同 时 处 于 兴奋 状态 , 则 它们 间 的 连接 应 加 
强 , 即 

Awy = 45;S), a>0 (10.2) 

这 一 规则 与 “条 件 反 射 ? 学 说 一 致 ,并 得 到 神经 细胞 学 说 的 证 实 。 设 =1, 当 Si=S=1 

时 ,Arw=1, 在 S;、S; 中 有 一 个 为 0 时 ,Avw; 二 0。 


3. 各 种 作用 函数 
(1) [0,1] 阶 梯 函 数 


Hey = | (10.3) 
Fz) = |, > ; 
(2) [一 1,1j 的 阶梯 函数 
1, Ee 
f(x) = (10.4) 
| 0 
(3) (一 1,1)S 型 函数 而 
Wie 计生 (10.5) 0 一 一 一 一 - 
(4) (0,1)S 型 函数 ( 见 图 10. 2) 
f(z) = 一 (10.6) 
四 
10.1.2 神经 网 络 的 几何 意义 图 10.2 (0,1)S 型 函数 


1. 神经 元 与 超 平面 
由 个 神经 元 (j 二 1,2,…,n) 对 连接 于 神经 元 i 的 信息 总 输入 了 ;为 
I;= = Dr — 0 (10.7) 
其 中 zwy 为 神经 元 ) 到 神经 元 i 的 连接 权 值 ， 0 为 神经 元 的 闭 值 。 神经 元 x (j= 二 1,2,… po 
当 于 维 空间 (zw ,x2，… ,xz ) 中 一 个 结 点 的 维 坐 标 ( 为 了 便于 讨论 ,省 略 i 下 标记 )。 
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I= Dwr 0=0 (10. 8) 
公式 (10; 8) 代 表 了 ， 维 空间 中 以 坐标 为 变量 的 一 个 超 平面 。 其 中 zw 为 坐标 的 系数 ， 
0 为 常数 项 。 
车 已 知 及 个 样本 
(zx® ,zs TD )， yy 
在 nn 维 空间 中 ,相当 于 已 知 个 结 点 的 各 结 点 坐标 。 该 个 结 点 可 惟一 构成 一 个 超 平 面 。 
超 平面 方程 用 行列 式 表示 为 


Xl 2 es 
2 a X (1) 和 
人 zz? 1|=0 (10. 9) 
x x xm 1 


式 (10.9) 是 以 nn 维 坐标 xj;(j 二 1,2,…,n) 为 变量 的 线性 方程 。 将 它 展开 即 为 超 平面 方 
程 (10.8)。 其 中 系数 rw 和 常数 0 用 行列 式 表示 为 


(1) (1) (1) (1) 
E Til XiHl We J 
| 从 Zz 1 
zi = (—1)™ (10. 10) 
2 全 了 2 二 
zl Ee 1 (1) 
—0=(—1)"|z® zx £2 x C10. 11) 
(| ( 
并 ZX Tt n) 


当 n 二 2 时 ,“ 超 平面 ”为 平面 (x1 ,xs) 上 的 一 条 直线 : 


2 
I Dwz; 0 一 wzl 十 zzz 一 0 一 0 
j=1 
当 n==3 时 , 超 平面 ?为 空间 (zk ，zz ,zs) 上 的 一 个 平面 


I= Du —0= wt+wr 十 zszs 一 0 一 0 
从 几何 角度 看 ,一 个 神 经 元 代表 一 个 超 平面 。 
2. 超 平 面 的 作用 


n 维 空间 (zi ,zs，… ,zx,) 上 的 超 平面 T 一 0, 将 空间 划分 为 三 部 分 。 
(1) 平面 本 身 
超 平面 上 的 任意 结 点 (zi ,zs ,… ,zm ) 满 足 超 平面 方程 , 即 


>)oiz 几 一 0 一 0 (10. 12) 


要 


% 


(2) 超 平面 上 部 P 
超 平面 上 部 PP 的 任意 结 点 (zi?” ,7 各 ,zz52 ) 满 足 不 等 式 , 即 
>)uoiz 和 一 0 之 0 (10. 13) 


i 


(3) 超 平面 下 部 Q 
超 平面 下 部 Q 的 任意 结 点 (zx? ,x9 ,… ,zs? ) 满 足 不 等 式 , 即 
Dwr? —0<0 (10.14) 


这 


3. 作用 函数 的 几何 意义 


神经 网 络 中 使 用 的 阶梯 型 作用 函数 为 
(7x) = we 
#2 -| rz<0 
把 nn 维 空间 中 超 平面 的 作用 和 神经 网 络 作 用 函数 结合 起 来 , 即 
1， Dwjr; —0>0 
‘D=f zi —0)= ” (10.15) 
(2 ) 0， Dwjr;—0<0 
式 (10.15) 的 含义 为 : 超 平面 上 部 P 的 任意 结 点 经 过 作用 函数 后 转换 成 数值 1。 超 平面 
下 部 Q 上 的 任意 结 点 经 过 作用 函数 后 转换 成 数值 0。 


4. 神经 元 的 几何 意义 


通过 以 上 分 析 可 知 ,一 个 神经 元 将 其 他 神经 元 对 它 的 信息 总 输入 了 ,作用 以 后 (通过 作 
用 函数 ) 的 输出 ,相当 于 该 神经 元 所 代表 的 超 平面 将 n 维 空间 (n 个 输入 神经 元 构成 的 空间 ) 
中 超 平面 上 部 结 点 了 P 转换 成 1 类 , 超 平面 及 其 下 部 结 点 转换 成 0 类 。 

结论 : 神经 元 起 了 一 个 分 类 作用 。 


5. 线性 样本 与 非 线性 样本 


定义 ”对 空间 中 的 一 组 两 类 样本 , 当 能 找 出 一 个 超 平面 将 两 者 分 开 , 称 该 样本 是 线性 样 
本 。 若 不 能 找到 一 个 超 平面 将 两 者 分 开 , 则 称 该 样本 是 非 线性 样本 。 


6. 非 线性 样本 变换 成 线性 样本 


利用 超 平面 分 割 空间 原理 ,对 一 个 非 线 性 样本 是 不 能 用 一 个 超 平面 分 割 开 ,但 可 用 多 个 
超 平面 分 割 空间 成 若干 区 ,使 每 个 区 中 只 含 同类 样本 的 结 点 。 这 种 分 割 完成 了 一 种 变换 ,使 
原 非 线性 样本 变换 成 二 进 制 值 下 的 新 线性 样本 。 


10.1.3 超 曲 面神经 网 络 概念 


超 曲面 神经 网 络 是 相对 于 超 平 面神经 网 络 而 言 的 。 传 统 的 神经 网 络 是 以 MP 模型 为 基 
础 的 , 按 MP 模型 ,神经 网 络 的 公式 为 
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多 A( Dwss; —0) Fe ly vm 
其 中 每 个 神经 网 络 元 s; 代表 了 一 个 超 平面 (其 中 5 是 一 次 方 ) : 
天 一 > ug5i —0=0 
神经 网 络 的 作用 西数 | 


人 A( Ss 9) | Dwsz; —00 


相当 于 超 平面 I; 对 维 空间 进行 了 一 次 分 割 。 多 个 超 平面 I; (i 二 1,2,…,n) 将 n 维 空间 进 
行 了 组 合 分 割 ,把 维 空间 分 成 了 若干 个 区 域 ,使 每 个 区 域 中 只 包含 同类 样本 。 这 种 区 域 分 
割 完 成 了 一 次 变换 ,即将 非 线 性 样本 (不 能 用 一 个 超 平面 分 割 的 样本 ) 通 过 多 个 超 平面 的 分 
割 使 它 变 成 了 线性 样本 。 对 新 的 线性 样本 ,再 通过 一 次 神经 网 络 ( 超 平面 ) 就 可 完成 对 它 的 
分 割 (分 类 )。BP 神经 网 络 模型 实质 上 就 是 通过 两 次 超 平面 分 割 ( 即 隐 结 点 层 和 输出 结 点 
层 ) 来 完成 样本 分 类 的 。 

BP 神经 网 络 是 反复 通过 神经 网 络 修改 权 值 的 迭代 ,最 后 找 出 隐 结 点 神经 网 络 超 平面 和 
输出 结 点 神经 网 络 超 平面 。 

也 可 以 用 解析 方法 ( 非 迭 代 方法 ) 直 接 构 造 这 些 超 平面 来 完成 对 各 类 样本 的 分 割 ,已 经 
有 学 者 在 从 事 这 项 工作 并 取得 一 些 成 果 。 

除了 用 超 平面 分 割 空间 外 ,能 否 用 超 曲面 分 割 空间 实现 对 非 线性 样本 的 分 割 呢 ? 这 就 
要 求 神经 网 络 公 式 (10.1)、(10. 8)、(10.15) 中 5; 和 x; 变 成 二 次 方 以 上 。 

黄金 才 提出 的 * 超 圆 神 经 网 络 模型 CC” 的 公式 为 


y= =a) (10. 16) 
该 神经 网 络 模型 与 MP 神经 网 络 模型 的 比较 ,如 图 10. 3 所 示 。 


人 
ee 


(a) MP 神经 元 对 样本 空间 的 划分 (b) CC 神经 元 对 样本 空间 的 划分 
图 10.3 CC 模型 与 MP 模型 对 样本 空间 的 划分 比较 


1， Dwsz; 一 和 二 0 


黄金 才 还 提出 了 * 超 曲面 神经 网 络 模型 Cover” 的 公式 为 
y= fwzrtt wyt wr 十 rutzy 十 rus 吧 一 c) 《IO 


以 上 超 曲面 神经 网 络 有 效 地 达到 了 对 非 线性 样本 的 分 类 效果 。 
超 曲面 神经 网 络 是 对 神经 网 络 的 有 益 扩展 。 
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10.2 感 知 机 


10.2.1 感知 机 模型 


1. 感知 机 (perceptron) 原 理 
神经 元 i 的 输入 为 
天 = Dwsz; 一 外 
zj 为 7 神经 元 的 输出 ,wi 为 神经 元 7 到 神经 元 i 的 连接 权 值 。 神 经 元 i 的 输出 为 
O; = f(1;) (10. 18) 


其 中 f(x) 为 神经 元 作用 函数 ,感知 机 采用 [0,1] 阶 梯 函 数 。 
设 i 神经 元 的 期 望 输出 为 D;, 与 计算 输出 0; 之 差 为 


6: = D;— 0O; (10. 19) 
通过 样本 学 习 , 修 正 权 值 wj 使 6; 尽 可 能 小 。 利 用 著名 的 德尔 塔 规则 (delta rule) 计 算 : 
Ar 二 a6;S; (a 为 常数 ) (10. 20) 
ws (t+1) = w(t) + Avws C10: 213 

阅 值 修正 公式 : 
Ab 一 ab， (10. 22) 
Ab 十 1) = 0.(1) 十 Ab (10. 23) 


更 新 权 值 w; 和 0;。 对 样本 重复 以 上 计算 ,经 过 多 次 反复 修正 ,将 使 6 趋向 于 0。 
2. 感知 机 模型 的 实现 


输出 
感知 机 是 双 层 模型 ,如 图 10.4 所 示 。 
(1) 数据 结构 
@ 输入 结 点 ( 结 点 数 为 m): Si,Ss，…，,S, 
@ 输出 结 点 ( 结 点 数 为 n) 输入 


结 点 : 1,2,3,… sn 
输入 : 了 ,Ts,Ts,… ，T 
输出 : O ,0 ,0 ，…,O， 
@ 网 络 上 权 值 


Wa Wn | 
(2) 学 习 过 程 (算法 如 下 ) 
给 出 一 组 学 习 样 本 ( 共 p 个 ): (S(1),D(1)),(S(2),D(2))，…, (SCE) ,DCED))，…， 
(S(p),D(p)) 
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对 第 个 样本 (S(k),D(k)) 有 : 
输入 : S(k)==(S1(k) ,Ss(k),*…,S,(k)) 
期 望 输 出 : DG(k)==(Di(k),D;,(k),…,D,(k)) 
Q@ 给 网 络 上 权 值 和 阔 值 赋 初 值 ,如 : ww; 圭 0,0; 寺 0。 
样本 循环 变量 赋 初 值 : & 一 1, 总 误差 初 值 已 =0, 迭 代 次 数 工 =0。 
@ 通过 感知 机 模型 推理 ,对 第 上 个 样本 : 
输入 : SCA) 一 (Si (CR) ,SC(R) SoCR)) 
计算 输出 : OCRA) 一 (OCR) ,OCR) ,OCR)) 
迭代 次 数 工 加 1 
@ 误差 计算 
每 个 输出 结 点 误差 : 8 0) 一 Di(E) 一 Oi(E) ，(〈i 一 1,2，…，70D) 
第 个 样本 误差 : e; = > ) | 8 | 
@ 权 值 修正 
原则 : 修正 权 wj; 使 6; 尽 可 能 小 ,利用 德尔 塔 规则 (delta rule) , 即 
Aw; = adi(k) S;(k) 
wy (nt 1) = wn) +t Avws 
GO 阔 值 修正 
Al0; = ab， 
Ab (十 1) = 0.(1) 十 Ap: 
@ 计算 已 个 样本 的 总 误差 已 为 
E= Ee 
@ 检查 : 
k= P? 
是 : 检查 | 已 | 委 0.05? 
是 : 计算 结束 。 输 出 迭代 次 数 工 和 总 误差 巨 ,输出 网 络 权 值 www 
否 :k 二 1,E 二 0。 样 本 再 次 学 习 , 转 @ 循 环 
否 :& 加 1 ,做 下 一 个 样本 , 转 @ 循 环 


10.2.2 感知 机 实例 


两 值 逻辑 加 法 例 , 输 入 数据 和 输出 数据 样本 如 下 : 
输入 : zl zx2 输出 : d( 期 望 ) 


0 0 0 

0 1 1 wl w2 

1 .6 1 

:| 1 xl 了 2 
该 例 的 神经 网 络 如 图 10. 5 所 示 。 图 10.5 两 值 逻 辑 加 法 神经 网 络 
该 例 的 感知 机 计算 公式 : 


wl ltD wl 1® a 
bee) = en 
w2 w2 人 
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初 值 | "> |=| | = 
w2 0 
其 中 4 为 期 望 输出 ,y 为 计算 输出 。 
计算 过 程 : 
。 K=1, y=f(0+0)=0 
加 | Toe] el 
(0 一 0) 
vw2 | w2 0 0 0 0 
“ K=2, y=f(0F0)=0 
112 fwll? 0 0 0 0 
[ool tema lolli 
vw2 ] w2 1 0 1 1 
。 开 =3， y=/f(0+0)=0 
wl 1 wl 0 1 1 
[el taal lb pelo] 
w2| [wz of lo Li 
。 K=4, y=f(l+1)=f(2)=1 
[| ad eo elo la 
FO1—D + 
w2| [wz i lid, Lol [1 


再 循环 一 次 ,将 会 得 到 所 有 例子 的 (d 一 y) 值 均 为 零 , 即 权 值 (wl 二 1,w2 二 1) 满 足 所 
有 实例 要 求 。 

二 值 逻 辑 加 法 样本 示意 如 图 10. 6 所 示 ,两 类 样本 (0,1) 可 以 利用 一 条 直线 分 隔 开 。 

从 线性 样本 定义 可 知 二 值 逻 辑 加 法 是 线性 可 分 的 。 

感知 机 对 线性 样本 是 非常 有 效 的 , 它 在 模式 识别 中 是 一 个 重要 的 方法 。 

0.D 


es。(11D 
o(1 1 


(0,0) ~ 0) 
™ 


注 : 。 代 表 1，o 代 表 0 
图 10.6 二 值 逻 辑 加 法 样本 示意 图 


. 
(0, 0) (1,0) 


图 10.7 异 或 问题 样本 示意 图 


10.2.3 感知 机 讨论 


现 将 二 值 逻辑 加 法 例 改 为 异 或 问题 例 , 即 第 四 个 样本 的 输出 值 由 1 改 为 0。 异 或 问题 
样本 示意 如 图 10.7 所 示 。 
偷 出 : 


输入 : zl x2 y 
0 0 0 
0 1 1 
1 0 1 
1 1 0 
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从 图 10.7 可 以 看 出 , 找 不 到 一 条 直线 将 两 类 样本 分 开 。 从 线性 样本 定义 可 知 ,该 问题 
样本 是 一 个 非 线 性 样本 。 


感知 机 对 异 或 问题 的 神经 网 络 计算 如 下 : 
KK 二 1,2,3 的 计算 同 二 值 逮 辑 样本 计算 。 
K=4 时 有 : y=f(1+1)=f(2)=1。 


1 1] wl]” 1 1 | 0 
bee). = [el sms) lB Ell 
w2 w2 1 . 0 
修改 后 的 权 信 双 回 到 了 初始 状态 ,如 果 继 续 计算 ,将 出 现 无 限 循 环 ,永远 不 会 收敛 。 访 


例 充 分 说 明 感知 机 对 非 线性 样本 无 效 。 要 解决 非 线 性 问题 ,需要 在 输入 输出 两 层 神经 网 络 
中 间 增 加 隐 结 点 层 。 下 面 讨论 的 反 向 传播 模型 (BP) 可 以 解决 非 线 性 问题 。 


10.3 反 向 传播 模型 
10.3.1 反 向 传播 模型 BP 网 络 结构 


BP(back propagation) 模 型 是 1985 年 由 Rumelhart 等 人 提出 的 。 
1. 多 层 网 络 结构 


神经 网 络 不 仅 有 输入 结 点 、 输 出 结 点 ,而 且 有 一 
层 或 多 层 隐 结 点 ,如 图 10. 8 所 示 。 


2. 作用 函数 为 (0,1)S 型 函数 


a 
eh (10. 24) 


图 10.8 BP 模型 网 络 结构 


3. 误差 函数 
对 第 p 个 样本 误差 计算 公式 为 
起 ;三 Ds 一 0a) 
其 中 ij 、O; 分 别 是 期 望 输出 与 计算 输出 。 
10.3.2 ”BP 网 络 学 习 公 式 推导 


BP 网 络 表示 : 输入 结 点 为 x , 隐 结 点 为 y; ,输出 结 点 为 0,。 


输入 结 点 与 隐 结 点 间 的 网 络 权 值 为 ww , 隐 结 点 与 输出 结 点 间 的 网 络 权 值 为 T; 。 当 输 
出 结 点 的 期 望 输出 为 时 ,BP 模型 的 计算 公式 如 下 。 


1. 隐 结 点 的 输出 


(10. 25) 


yi 二 f( Dwsz; -0) = f(net;) 


= 22]1 “= 


其 中 net 一 ro 一 和 :< 
2. 输出 结 点 计算 输出 


=/( 2 Ty — 0) = f(net,) 
其 中 net, = DTey: = 交 ; 


3. 输出 结 点 的 误差 公式 
E 2 O,)? 人 (DT -0)) 


A 
(1) 对 输出 结 点 的 公式 推导 


OF _ ~ 9E 90 9E 9O/ 


aTs A a0: 9T; 30,9T7; 


其 中 巨 是 多 个 O4 的 函数 ,但 只 有 一 个 O: 与 Ts 有 关 , 各 O4 间 相 互 独立 。 其 中 


0 Bl 
2 5 2) 2 —0.) OF = 
k 


00O 900 
9O， 9O，onet ， w _ 
二 一 Bnet BT = f (net,)yi 
则 
aE 
2 三 二 
设 输出 结 点 误差 
6 = (t,— ON)f (net,) 
则 
aE _ 
aTs — Oy: 


(2) 对 隐 结 点 的 公式 推导 


aE 35 aE 90, 9y; 
7 4 50 9y, ju 


ay 


其 中 已 是 多 个 O 函 数 ,针对 某 一 个 zw ,对 应 一 个 yi;, 它 与 所 有 0 有关 ,其 中 : 


aE 1 3O， 
jG 2 2 2 -00 70 (1 — 0) 


90, 9O,; net, 
9yi gnet: 9yi 


el 


f (neti) f (net)Ts 


9y; _ gy gnet; 
gwy 9net; ws 


= f (neti)z; 


则 
* 222 ， 


(10. 26) 


(10. 27) 


(10. 28) 


~ OD Ff net) Taf’ (net)z; =— DOTsf’ (net)zx; (10.29) 
[4 


3 
设 隐 结 点 误差 
0’ = f (net) D6Ts (10. 30) 
1 
则 
2 (10.31) 
Jw; 
由 于 权 值 的 修正 AT 和 a 有 
AT =— 7937 斌 = Wy: (10. 32) 
2 = (1 — Of (net) (10. 27) 
Arwy =— 和 7 Oi (10. 33) 
0= f (neti) D0Ts (10. 30) 
了 
(3) 基本 公式 汇总 
@ 对 输出 结 点 误差 : 
6 = (1 — ON)f (net,) (10.34) 


@ 输出 层 网 络 权 值 修正 : 
Ts (k++1) 一 Ti 十 AT = Ts(k) + iy: (10. 35) 
@ 对 隐 结 点 误差 : 


0 = f (neti) DoTs (10. 36) 
@ 隐 结 点 网 络 权 值 修正 : 
ws (k++1) = ws (k) 十 Ar = ws (k) + yiz (10. 37) 
其 中 , 隐 结 点 误差 6 的 含义 :>》)6,Ts 表示 输出 层 结 点 1 的 误差 6, 通过 权 值 Tu 向 隐 结 点 i 反 
向 传播 (误差 & 乘 权 值 Ts 再 累加 ) 成 为 隐 结 点 i 的 误差 ， 8 6, 5。 输出 层 
如 图 10.9 所 示 。 
4. 阅 值 的 修正 


阅 值 9 也 是 一 个 变化 值 ,在 修正 权 值 的 同时 也 修正 
它 , 原 理 同 权 值 的 修正 。 2 
(1) 对 输出 结 点 的 公式 推导 图 10.9 误差 反 向 传播 示意 图 


aE _ 9E 90, 
a0, 30, 90, 


(4 一 O01) ,对 某 个 0 对 应 一 个 O,。 


a0 9O，o9net 
90， 9gnet 90, 


隐 层 


f (net)(—1) 
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则 
oaE 


30 = (C—O (net) = 6 (10. 38) 
aE 
Al 一 7 了 一 从 
谍 手 人 7530 Wid 
则 
Qk+1) = 0(k) + (10. 39) 
(2) 对 隐 结 点 的 公式 推导 
aE aE 9y; 9E 90,9y; 
a90; gayva0 90, 9y;: ab 
其 中 
oaE _ 
5 二 2 O) 
2 = f (net) Ts 
5y 
9y: _ gy onet ~ ee ’ 
也 Bnet 拘 f (neti)(—1) f (net) 
则 
守 = Do Od fned Taf Cnet, = 2 Tf (net) 一 以 (10. 40) 
由 于 Ab 一 -7 防 -? 1 
则 
0.(k 二 1) = 0.(k) + yO: (10.41) 
5, 作用 函数 f(x) 的 导数 公式 
函数 /(z) 一 于 一 ,存在 关系 f(z)=f(z)(1—f(7)) 
则 
f (neti) = f(net) (1— f(net,)) (10. 42) 
对 输出 结 点 O01=f(net,) 
f (net,) = 0.(1—0,) (10. 43) 
对 隐 结 点 yi=f (neti) 
f (net) = yi(1— y) (10. 44) 


6. BP 模型 计算 公式 汇总 


(1) 输出 结 点 输出 0, 的 计算 公式 
Q@ 输入 结 点 的 输入 : zz 
@ 隐 结 点 的 输出 : y; = f( Dwsz; -0 hs 连接 权 值 为 ws , 结 点 阔 值 为 0.。 
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本 数 


@ 输出 结 点 输出 : O, = /( 22Tsy; 一 0) ,其 中 : 连接 权 值 为 7 , 结 点 阔 值 为 0 。 


(2) 输出 层 ( 隐 结 点 到 输出 结 点 间 ) 的 修正 公式 
Q@ 输出 结 点 的 期 望 输出 : 4 
@ 误差 控制 
Fp n 
所 有 样本 误差 :已 = 》) es 二 e, 其 中 一 个 样本 误差 w = 》) | (人 
k=1 l=1 
,为 输出 结 点 数 。 
@ 误差 公式 ， 
6 = (1,— O01)0(1— 0) 
@ 权 值 修正 ， 


Ta(k 十 1) 二 Ti(k) 十 W641y;:， 其 中 为 迭代 次 数 。 


@ 国 值 修正 : 
QCk+1) = 0.(k) + 
(3) 隐 结 点 层 (输入 结 点 到 隐 结 点 间 ) 的 修正 公 
@ 误差 公式 : 
8 = y(1—y) D0Ts 
7 


@ 权 值 修正 : 
ws (R 十 1) = ws (k) + woz 
加 阅 值 修正 : 
0(R 十 1) 一 0CR) 十 6 
BP 模型 算法 分 为 3 部 分 : 
中 隐 结 点 和 输出 结 点 的 输出 计算 ; 
@ 输出 结 点 和 隐 结 点 的 误差 计算 ; 


一 O4 | , 其中,p 为 样 


(10. 45) 


(10. 46) 


(10.47) 


(10. 48) 


(10. 49) 


(10. 50) 


@ 输出 层 网 络 权 值 及 结 点 阔 值 与 隐 结 点 层 网 络 权 值 及 结 点 阔 值 的 修改 ,如 图 10. 10 
所 示 。 


67=0,(1-OMd,-0) 


TD=THn5Py 输出 结 点 有 O1=f (211-0) 


求 | "oprme 把 吕 

60) 

50 隐 结 点 | /|Zws- 9 
5 了 5P7 
人 = 的 HE 修正 权 
OV=gH+n6 | 了 


修正 (7;, 6) 和 (wj, 的 
图 10.10 BP 模型 算法 示意 图 
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BP 模型 计算 ,不 但 对 每 一 个 样本 要 积累 计算 各 输出 结 点 的 误差 ,对 所 有 样本 还 要 积累 
各 样本 的 误差 ,这 个 总 误差 才 是 一 次 迭代 的 误差 , 当 它 不 满足 给 定 误差 时 ,继续 迭代 (用 新 网 
络 权 值 和 阔 值 ,再 对 所 有 样本 重复 计算 ) ,直到 满足 给 定 误差 为 止 。 这 种 迭代 可 能 要 上 万 次 
才能 够 收敛 。 


10.3.3 实例 分 析 


1. 异 或 问题 的 BP 神经 网 络 
异 或 问题 (XOR) 用 BP 模型 进行 求解 ,样本 和 神经 网 络 如 图 10. 11 所 示 。 


图 10.11 异 或 问题 神经 网 络 图 


按 问题 要 求 ,设置 输入 结 点 2 个 (zi ,zx2) ,输出 结 点 1 个 (2), 隐 结 点 2 个 (yi,yz)。 
2. 计算 机 运行 结果 


(1) 迭代 次 数 : 16 745 次 ; 给 定 误差 : 0. 05。 

(2) 隐 层 网 络 权 值 和 阔 值 : wi 一 5. 24,rot = 二 5.23,wa 一 6. 68,roz 一 6. 64,0 一 8.01， 
三 2.98。 

(3) 输出 层 网 络 权 值 和 阔 值 : 九 王 一 10,T 一 10,g 一 4.79。 


3. 用 计算 结果 分 析 神 经 网 络 的 几何 意义 
(1) 隐 结 点 代表 的 直线 方程 ( 见 图 10. 12) 


yi :5.24zl 十 5.23 zz 一 8.01 王 0 
即 
Xi 二 0.998 z 妆 一 1.529 一 0 《10. 51) 
yz: 6.68zi 十 6.64 zz 一 2.98 王 0 
即 
Xi 十 0.994 zz 一 0.446 一 0 《90955207 


@ 直线 mm 和 ys 将 平面 (zi ,xs) 分 为 3 个 区 : 

。 1 线 上 方 区 ,zi 十 zz 一 1. 53 之 0,z1 十 zz 一 0.45 之 0 

。 yi、y2 线 之 间 区 ,zi 十 zz 一 1.53 过 0 ,zi 十 xz 一 0.45 之 0 

。 ys 线 的 下 方 区 ,zi 十 zs 一 1.53 过 0,zi 十 zs 一 0.45 过 0 
。 226 。 


@@ 对 样本 点 : 


。 点 (0,0) 落 入 ys 的 下 方 区 ,经 过 隐 结 点 作用 函数 f(x)( 暂 取 它 为 阶梯 函数 ) ,得 到 输 
出 1=0,ys—=0。 


"点 (1,0) 和 点 (0,1) 落 入 yi 、y: 线 之 间 区 ,经 过 隐 结 点 作用 函数 f(x) ,得 到 输出 均 为 


V1=0,ys=1。 
。 点 (1,1) 落 入 yy 线 上 方 区 ,经 过 隐 结 点 作用 函数 f(x) ,得 到 输出 为 y= 二 1,y, 二 1。 
@ 结论 : 隐 结 点 将 zi ,zs 平面 上 4 个 样本 点 (0,0)、(0,1)、(1,0)、(1,1) 变 换 成 3 个 样 


本 点 (0,0)、(0,1)、(1,1), 它 已 是 线性 样本 。 
(2) 输出 结 点 代表 的 直线 方程 ( 见 图 10. 13) 


(0, 0) (1,0) 1 


y»: XItxy—0.45=0 


图 10.12 隐 结 点 代表 的 直线 方程 图 10.13 输出 结 点 代表 的 直线 方程 


Z: —10y+10ys—4.79=0 
即 
—y +ys—0.479=0 (10. 53) 
Q@ 直线 Z 将 平面 (yi ,ys) 分 为 两 个 区 : 
。Z 线 上 方 区 ,一 yi 十 ys 一 0.479 二 0 
。Z 线 下 方 区 ,一 yi 十 y; 一 0.479 二 0 
@ 对 样本 点 : 
。 点 (0,1)( 即 yi 二 0,ys 二 1) 落 入 Z 线 上 方 区 ,经 过 输出 结 点 作用 函数 f(x)( 暂 取 它 为 
阶梯 函数 ) 得 到 输出 为 : Z 二 1。 
。 点 (0,0)( 即 yi 二 0,ys 二 0), 点 (1,1)( 即 yi 二 1,ys 二 1) 落 入 Z 线 下 方 区 ,经 过 输出 结 
点 作用 函数 f(x) 得 到 输出 为 : Z 一 0。 


@ 结论 : 输出 结 点 将 w .yz 平面 上 3 个 样本 (0,0)、(0,1)、(1,1) 变 换 成 两 类 样本 Z=1 
和 2Z=0。 


4. 神经 网 络 结 点 的 作用 


从 上 面 的 分 析 中 可 以 得 出 结论 : 
(1) 隐 结 点 的 作用 是 将 原 非 线 性 样本 (4 个 ) 变 换 成 线性 样本 (3 个 )。 
(2) 输出 结 点 的 作用 是 将 线性 样本 (3 个 ) 变 换 成 两 类 (1 类 或 0 类)。 
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对 于 作用 函数 f(z) 取 为 S 型 函数 ,最 后 变换 成 两 类 为 “接近 1 类 ”和 "接近 0 类 ”。 
5. 超 平面 (直线 ) 特 性 


(1) 隐 结 点 直线 特性 

隐 结 点 直线 w 、.y 相 互 平行 , 且 平 行 于 过 点 (1,0) 和 点 (0,1) 的 直线 工 : zi 十 zs 一 1 二 0。 
直线 yy 位 于 点 (1,1) 到 直线 工 的 中 间 位 置 附近 (0 二 1.53)。 直 线 y, 位 于 点 (0,0) 到 直线 工 
的 中 间 位 置 附 近 (0, 二 0. 45)。 阅 值 0, 和 可 以 在 一 定 范 围 内 变化 : 1.0 二 0 二 2,0b 二 
1.0。 其 分 类 效果 是 相同 的 。 

(2) 输出 结 点 直线 特性 

输出 结 点 直线 Z ,平行 于 过 点 (0,0) 和 点 (1,1) 的 直线 P: yi 一 ys 二 0。 直 线 Z 位 于 点 
(0,1) 到 直线 P 的 中 间 位 置 附近 (8 二 0.48)。 阅 值 $ 可 以 在 一 定 范围 内 变化 (0$ 一 1), 其 
分 类 效果 是 相同 的 。 


10.4 遗传 算法 


遗传 算法 是 模拟 生物 进化 的 自然 选择 和 遗传 机 制 的 一 种 寻 优 算法 。 它 模拟 了 生物 的 繁 
殖 、 交 配 和 变异 现象 ,从 任意 一 初始 种 群 出 发 ,产生 一 群 新 的 更 适应 环境 的 后 代 。 这 样 一 代 
一 代 不 断 繁 殖 .进化 ,最 后 收敛 到 一 个 最 适应 环境 的 个 体 上 。 遗 传 算法 对 于 复杂 的 优化 问题 
无 需 建立 数学 模型 和 进行 复杂 运算 ,只 需要 利用 遗传 算法 的 算 子 就 能 寻找 到 问题 的 最 优 解 
或 满意 解 。 

自然 选择 学 说 认为 ,生物 要 生存 下 去 ,就 必须 进行 生存 斗争 。 生 存 斗 争 包括 种 内 斗争 、 
种 间 斗 争 以 及 生物 跟 环境 之 间 的 斗争 3 个 方面 。 在 生存 斗争 中 ,具有 有 利 变异 的 个 体 容 易 
存活 下 来 ,并 且 有 更 多 的 机 会 将 有 利 变 异 传 给 后 代 ; 具有 不 利 变异 的 个 体 就 容易 被 淘汰 , 产 
生 后 代 的 机 会 也 少 得 多 。 因 此 ,凡是 在 生存 斗争 中 获胜 的 个 体 都 是 对 环境 适应 性 比较 强 的 。 
达尔 文 把 这 种 在 生存 斗争 中 适 者 生存 .不适 者 淘汰 的 过 程 叫做 自然 选择 。 达 尔 文 的 自然 选 
择 学 说 表明 ,遗传 和 变异 是 决定 生物 进化 的 内 在 因素 。 遗 传 是 指 父 代 与 子 代 之 间 ,在 性 
状 上 存在 的 相似 现象 。 变 异 是 指 父 代 与 子 代 之 间 ,以 及 子 代 个 体 之 间 ,在 性 状 上 或 多 或 
少 地 存在 的 差异 现象 。 在 生物 体内 ,遗传 和 变异 的 关系 十 分 密切 。 一 个 生物 体 的 遗传 性 
状 往往 会 发 生变 异 ,而 变异 的 性 状 有 的 可 以 遗传 。 遗 传 能 使 生物 的 性 状 不 断 地 传送 给 后 
代 , 因 此 保持 了 物种 的 特性 ,变异 能 够 使 生物 的 性 状 发 生 改变 ,从 而 适应 新 的 环境 而 不 断 
地 向 前 发 展 。 

生物 的 遗传 与 变异 有 它 的 物质 基础 。 遗 传 物质 的 主要 载体 是 染色 体 (chromsome)。 染 
色 体 主要 是 由 DNA( 脱 氧 核糖 核酸 ) 和 蛋白质 组 成 。 基 因 (gene) 是 染色 体 的 片段 , 它 储存 着 
遗传 信息 ,可 以 准确 地 复制 ,也 能 够 发 生 突变 ,生物 体 自身 通过 对 基因 的 复制 (reproduction) 
和 交叉 (crossover, 即 基因 自由 组 合 和 基因 连锁 互 换 ) 的 操作 实现 性 状 的 遗传 。 同 时 ,通过 
基因 变异 实现 生物 性 状 的 变异 。 根 据 达尔 文 进化 论 , 多 种 多 样 的 生物 之 所 以 能 够 适应 环境 
而 得 以 生存 进化 ,是 和 上 述 的 遗传 和 变异 生命 现象 分 不 开 的 。 生 物 的 遗传 特性 使 生物 界 的 
物种 能 够 保持 相对 的 稳定 ; 生物 的 变异 特性 使 生物 个 体 产生 新 的 性 状 ,以 至 于 形成 了 新 的 
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物种 ,推动 了 生物 的 进化 和 发 展 。 
10.4.1 遗传 算法 基本 原理 


1. 概述 


遗传 算法 (genetic algorithms,GA) 是 一 种 基于 遗传 学 的 搜索 优化 算法 。 遗 传 学 认为 遗 
传 是 作为 一 种 指令 码 封装 在 每 个 染色 体 个 体 中 ,并 以 基因 (位 ) 的 形式 包含 在 染色 体 ( 个 体 ) 
中 。 每 个 基因 有 特殊 的 位 置 并 控制 某 个 特殊 的 性 质 。 由 基因 组 成 的 个 体 对 环境 有 一 定 的 适 
应 性 。 基 因 杂 交 和 基因 突变 能 产生 对 环境 适应 性 强 的 后 代 , 通 过 优胜 劣 汰 的 自然 选择 ,适应 
值 高 的 基因 结构 就 保存 下 来 。 

在 遗传 算法 中 必 染 色 体 "对 应 的 是 数据 或 数组 ,通常 是 由 一 维 的 串 结构 数据 来 表现 。 串 
上 各 个 位 置 对 应 "基因 ”, 而 各 位 置 上 的 值 对 应 基因 的 取 值 。 基 因 组 成 的 串 就 是 染色 体 ,或 者 
叫做 基因 型 个 体 (individuals)。 一 定数 量 的 个 体 组 成 了 群体 (population)。 群 体 中 个 体 的 
数目 称 为 群体 的 大 小 (population size) ,也 叫 群体 规模 。 而 各 个 体 对 环境 的 适应 程度 叫做 适 
应 度 (fitness) 。 

遗传 算法 中 包含 两 个 必需 的 数据 转换 操作 ,一 个 是 把 搜索 空间 中 的 参数 或 解 转 换 成 遗 
传 空间 中 的 染色 体 或 个 体 ,此 过 程 又 叫做 编码 (coding) 操 作 ; 另 一 个 是 相反 操作 ,叫做 译 码 
(decoding) 操 作 。 

遗传 算法 是 一 种 群体 型 操作 ,该 操作 以 群体 中 的 所 有 个 体 为 对 象 。 选 择 (selection) 、 交 
叉 (crossover) 和 变异 (mutation) 是 遗传 算法 的 3 


个 主要 操作 算 子 ,它们 构成 了 遗传 操作 (genetic 


operation) ,使 遗传 算法 具有 了 其 他 传统 方法 所 没 i 
有 的 特性 。 为 适应 值 (函数 ) 
遗传 算法 的 处 理 流程 如 图 10. 14 所 示 。 1 

中 传 算法 首先 将 问题 的 每 个 可 能 的 解 按 某 种 。 | one ) 
形式 进行 编码 ,编码 后 的 解 称 做 染色 体 (个 体 )。 随 i 
机 选取 N 个 染色 体 构成 初始 种 群 ,再 根据 预定 的 。 一 计算 个 体 (染色 休 ) 


评价 函数 对 每 个 染色 体 计算 适应 值 ,使 得 性 能 较 好 
的 染色 体 具有 较 高 的 适应 值 。 选 择 适 应 值 高 的 染 < 本 人 > 
色 体 进行 复制 ,通过 遗传 算 子 进行 选择 .交叉 ( 重 问题 的 种 群 
组 ) ,变异 ,来 产生 一 群 新 的 更 适应 环境 的 染色 体 ， 
形成 新 的 种 群 。 这 样 一 代 一 代 不 断 繁殖 、 进 化 ,最 
后 收敛 到 一 个 最 适应 环境 的 个 体 上 , 求 得 问题 的 最 
优 解 。 
2， 遗传 算法 中 的 基本 要 素 


遗传 算法 中 包含 了 如 下 5 个 基本 要 素 : 问题 
编码 ; 初始 群体 的 设 定 ; 适应 值 函 数 的 设计 ; 遗传 ”图 10.14 遗传 算法 的 处 理 流程 示意 图 
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产生 新 一 代 种 群 


操作 设计 ; 控制 参数 设 定 ( 主 要 是 指 群体 大 小 和 使 用 遗传 操作 的 概率 等 )。 这 5 个 要 素 构成 
了 遗传 算法 的 核心 内 容 。 

(1) 问题 编码 

将 子 串 拼 接 起 来 构成 “染色 体 ” 位 串 。 但 是 不 同 串 长 和 不 同 的 码 制 , 对 问题 求解 的 精度 
和 遗传 算法 收敛 时 间 会 有 很 多 影响 。 如 何 将 问题 描述 成 串 的 形式 就 不 那么 简单 ,而 且 同 一 
问题 可 以 有 不 同 的 编码 方法 。 

常用 的 二 进 制 编码 方式 是 基于 确定 的 二 进 制 位 串 上 : I 二 {0,1):。 目 前 也 出 现 采 用 其 
他 编码 方式 ,如 用 向 量 (向 量 元 素 为 实数 ) 来 表示 染色 体 ,或 者 用 规则 形式 (规则 A, 规 则 B， 
规则 C…… ) 来 表示 染色 体 。 

(2) 初始 群体 的 生成 

遗传 算法 是 群体 型 操作 ,这样 必 须 为 遗传 操作 准备 一 个 由 若干 初始 解 组 成 的 初始 群体 。 
初始 群体 的 每 个 个 体 都 是 通过 随机 方法 产生 的 。 初 始 群体 也 称 为 进化 的 初始 代 , 即 第 一 代 
(first generation ) 。 

(3) 适应 值 函数 的 确定 

遗传 算法 在 搜索 进化 过 程 中 一 般 不 需要 其 他 外 部 信息 , 仅 用 评估 函数 值 来 评估 个 体 或 
解 的 优 劣 ,并 作为 以 后 遗传 操作 的 依据 。 评 估 函 数值 又 称 做 适应 值 (fitness) 。 

适应 值 函数 ( 即 评估 函数 ) 是 根据 目标 函数 确定 的 。 适 应 值 总 是 非 负 的 ,任何 情况 下 总 
是 希望 越 大 越 好 。 一 般 目 标 函 数 有 正 有 负 , 且 和 适应 值 之 间 的 关系 也 是 多 种 多 样 的 。 如 求 
最 大 值 时 ,目标 函数 与 适应 值 变 化 方向 一 致 ,而 求 最 小 值 时 ,变化 方向 正好 相反 。 因 此 ,存在 
目标 函数 到 适应 值 函 数 的 映射 问题 ,常见 的 映射 形式 为 

$la) = Of (r(a))) 

其 中 ,a 为 个 体 ; r(a) 为 个 体 的 译 码 函数 ，f 则 为 具体 求解 问题 的 表达 式 ; 6 为 变换 函数 ,6 
的 作用 是 确保 适应 值 为 正 , 并 且 最 好 的 个 体 其 适应 值 最 大 。 适 应 值 函 数 的 选取 至 关 重要 , 它 
直接 影响 到 算法 的 收敛 速度 , 即 最 终 能 否 找到 最 优 解 。 函 数 优化 问题 可 直接 将 函数 本 身 作 
为 评价 函数 。 而 对 于 复杂 系统 的 评价 函数 一 般 不 那么 直观 ,往往 需要 研究 者 自己 构造 出 能 
对 解 的 性 能 进行 评价 的 函数 。 

为 了 使 遗传 算法 有 效 地 工作 ,必须 保持 种 群 内 位 串 的 多 样 性 和 位 串 之 间 的 竞争 机 制 。 
如 果 将 遗传 算法 的 运行 分 为 开始 .中 间 和 结束 3 个 阶段 ,在 开始 阶段 中 , 若 一 个 规模 不 太 大 
的 种 群 内 有 少数 非凡 的 个 体 (适应 值 很 高 的 位 串 ) 的 话 , 按 通常 的 选择 方法 ,这 些 个 体会 被 大 
量 繁殖 ,在 种 群 中 占有 大 的 比重 ,这 样 就 会 减少 种 群 的 多 样 性 ,导致 过 早 收 敛 , 从 而 可 能 丢失 
一 些 有 意义 的 搜索 点 或 最 优点 ,而 陷入 局 部 最 优 。 其 次 ,在 结束 阶段 ,即使 种 群 内 保持 了 很 
大 的 多 样 性 ,但 若 所 有 或 大 多 数 个 体 都 有 很 高 的 适应 值 , 从 而 种 群 平均 适应 值 和 最 大 适应 值 
相差 无 几 ,那么 平均 适应 值 附近 的 个 体 和 具有 最 高 适应 值 的 个 体 , 被 选中 的 机 会 几乎 相同 ， 
这 样 选择 就 成 了 一 个 近乎 随机 的 步骤 ,适应 值 的 作用 就 会 消失 ,从 而 搜索 性 能 得 不 到 明显 改 
进 。 因 此 ,有 必要 对 种 群 内 各 位 串 的 适应 值 进行 有 效 地 调整 , 既 不 能 相差 太 大 ,又 要 拉 开 档 
次 ,强化 位 串 之 间 的 竞争 性 。 最 常见 的 调整 方法 是 线性 调整 法 。 
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10.4.2 遗传 算 子 


遗传 算法 的 执行 过 程 中 ,每 一 代 有 许多 不 同 的 染色 体 (个 体 ) 同 时 存在 ,这 些 染色 体 中 哪 
个 保留 (生存 ) .哪个 淘汰 (死亡 ) 是 根据 它们 对 环境 的 适应 能 力 决定 的 ,适应 性 强 的 有 更 多 的 
机 会 保留 下 来 。 适 应 性 强 弱 是 计算 个 体 适应 值 函 数 f(x) 的 值 来 判别 的 ,这 个 值 称 为 适应 值 
(fitness)。 适 应 值 函数 f(z) 的 构成 与 目标 函数 有 密切 关系 ,往往 是 目标 函数 的 变种 。 主 要 
的 遗传 算 子 有 如 下 几 种 。 


1. 选择 (Selection) 算 子 


它 又 称 复制 (reproduction) ,繁殖 算 子 。 
选择 是 从 种 群 中 选择 生命 力 强 的 染色 体 产生 新 种 群 的 过 程 。 依 据 每 个 染色 体 的 适应 值 
大 小 ,适应 值 越 大 ,被 选中 的 概率 就 越 大 ,其 子孙 在 下 一 代 产 生 的 个 数 就 越 多 。 
选择 操作 是 建立 在 群体 中 个 体 的 适应 值 评估 基础 上 的 ,目前 常用 的 选择 算 子 有 以 下 
几 种 。 
(1) 适应 值 比例 法 
适应 值 比 例 法 是 目前 遗传 算法 中 最 常用 的 选择 方法 。 它 也 叫 赌 轮 或 蒙特 卡 风 (Monte 
Carlo) 选 择 。 在 该 方法 中 ,各 个 个 体 的 选择 概率 和 其 适应 值 成 比例 。 
设 群体 大 小 为 ,其 中 个 体 i 的 适应 值 为 /;, 则 i 被 选择 的 概率 了 为 
M 
P; = AP/ (10.54) 
显然 ,概率 已 反映 了 个 体 ; 的 适应 值 在 整个 群体 的 个 体 适应 值 总 和 中 所 占 的 比例 。 个 
体 适应 值 越 大 ,其 被 选择 的 概率 就 越 高 。 按 式 (10. 54) 计 算出 群体 中 各 个 个 体 的 选择 概率 
后 ,就 可 以 决定 哪些 个 体 被 选 出 。 
(2) 最 佳 个 体 保存 法 
该 方法 的 思想 是 把 群体 中 适应 度 最 高 的 个 体 不 进行 配对 交叉 而 直接 复制 到 下 一 代 中 。 
此 种 选择 操作 又 称 复制 (copy) 。 
设 在 第 4 代 中 ,群体 中 a* (7) 为 最 佳 个 体 。 而 在 A(t 十 1) 新 一 代 群 体 中 不 存在 a* (1)， 
则 把 a* (72) 作为 A (1 十 1) 中 的 第 十 1 个 个 体 ( 其 中 为 群体 大 小 )。 
采用 此 选择 方法 的 优点 是 ,进化 过 程 中 某 一 代 的 最 优 解 可 不 被 交叉 和 变异 操作 破坏 ,但 
是 ,会 使 进化 有 可 能 限于 局 部 解 , 即 它 更 适合 单 峰 性 质 的 空间 搜索 。 一 般 它 都 与 其 他 选择 方 
法 结合 使 用 。 
(3) 期 望 值 方法 
Q@ 计算 群体 中 每 个 个 体 在 下 一 代 生 存 的 期 望 数目 : 
对 三 沪 序 二 天 /加 六 所 (10. 55) 
@ 若 某 个 体 被 选中 并 要 参与 配对 和 交叉 , 则 它 在 下 一 代 中 的 生存 的 期 望 数目 减 去 0.5; 
若 不 参与 配对 和 交叉 , 则 该 个 体 的 生存 期 望 数目 减 去 1。 
@ 在 @ 的 两 种 情况 中 , 若 一 个 个 体 的 期 望 值 小 于 零 时 , 则 该 个 体 不 参与 选择 。 
对 比 实验 表明 ,采用 期 望 值 法 的 性 能 高 于 前 两 种 方法 的 性 能 。 
过 于 


(4) 排序 选择 方法 

所 谓 排序 选择 方法 是 指 在 计算 每 个 个 体 的 适应 值 后 ,根据 适应 值 大 小 顺序 对 群体 中 个 
体 排序 ,然后 把 事先 设计 好 的 概率 表 按 序 分 配给 个 体 , 作 为 各 自 的 选择 概率 。 所 有 个 体 按 适 
应 值 大 小 排序 ,选择 概率 和 适应 值 无 直接 关系 而 仅 与 序号 有 关 。 这 种 方法 的 不 足 之 处 在 于 
选择 概率 和 序号 的 关系 必须 事先 确定 。 此 外 , 它 和 适应 值 比例 法 一 样 都 是 一 种 基于 概率 的 
选择 。 

(5) 比例 排序 法 

将 比例 法 和 排序 法 结合 起 来 的 比例 排序 法 , 即 当 群体 中 某 个 染色 体 的 适应 值 远 远大 于 
其 他 染色 体 的 适应 值 或 群体 中 每 个 染色 体 的 适应 值 相似 时 , 按 排序 法 进行 后 代 选 择 ,而 在 一 
般 情形 下 采用 比例 法 进行 后 代 选 择 。 这 样 既 能 利用 两 种 方法 各 自 的 优点 ,又 弥补 了 两 种 方 
法 各 自 的 缺点 。 


2. 交叉 (crossover) 算 子 


它 又 称 重组 (recombination) 、 配 对 (breeding) 算 子 。 

当 许 多 染色 体 相同 或 者 后 代 的 染色 体 与 上 一 代 没 有 多 大 差别 时 ,可 通过 染色 体重 组 来 
产生 新 一 代 染 色 体 。 染 色 体 重组 是 分 两 步骤 进行 的 ,首先 在 新 复制 的 群体 中 随机 选取 两 个 
个 体 ,然后 , 沿 着 这 两 个 个 体 ( 字 符 串 ) 随 机 地 取 一 个 位 置 ,二 者 互 换 从 该 位 置 起 的 末尾 部 分 。 
如 ,有 两 个 用 二 进 制 编码 的 个 体 A 和 B。 长 度 L=5,A 二 a1azasasas，B 二 bib;bsbibs 随 机 选 
择 一 整数 &E[1,L 一 1], 设 k= 二 4, 经 交叉 后 变 为 ; 

A=aazas |aas, A’ 一 aiazasbibs 
B= bbbs | bbs, B’ = bb;bsaas 

遗传 算法 的 有 效 性 主要 来 自选 择 和 交叉 操作 ,尤其 是 交叉 在 遗传 算法 中 起 着 核心 作用 。 
目前 有 如 下 几 种 基本 交叉 方法 。 

(1) 一 点 交叉 

一 点 交叉 又 叫 简单 交叉 。 具 体操 作 是 : 在 个 体 串 中 随机 设 定 一 个 交叉 点 。 实 行 交叉 
时 ,该 点 前 或 后 的 两 个 个 体 的 部 分 结构 进行 互 换 ,并 生成 两 个 新 个 体 。 

C27 三 起 交叉 

二 点 交叉 的 操作 与 一 点 交叉 类 似 ,只 是 设置 两 个 交叉 点 (依然 是 随机 设 定 )。 一 个 二 点 
交叉 的 例子 表示 如 下 : 


个 体 4 10:110:11 一 一 一 一 一 一 1001011 新 个 体 4' 
配对 个 体 个 体 B A 新 个 体 B 


交叉 点 1 交叉 点 2 
由 此 可 见 ,2 个 交叉 点 分 别 设 定 在 第 二 个 基因 位 和 第 三 个 基因 位 之 间 以 及 第 五 个 基 
因 位 和 第 六 个 基因 位 之 间 。A、B 两 个 体 在 这 两 个 交叉 点 之 间 的 码 串 相互 交换 ,分 别 生成 
新 个 体 A' 和 B' 。 对 于 二 点 交叉 而 言 ,车 染色 体 长 为 n, 则 可 能 有 (n 一 2) (n 一 3) 种 交叉 点 
的 设置 。 
(3) 多 点 交叉 
.232 。 


多 点 交叉 是 前 述 两 种 交叉 的 推广 ,有 时 又 被 称 为 广义 交叉 (generalized crossover) 。 
一 般 来 讲 ,多 点 交叉 较 少 采 用 ,因为 它 影响 遗传 算法 的 性 能 。 即 多 点 交叉 不 能 有 效 地 保 
存 重要 的 模式 。 
(4) 一 致 交叉 
所 谓 一 致 交叉 是 指 通过 设 定 屏蔽 字 (mask) 来 决定 新 个 体 的 基因 继承 两 个 旧 个 体 中 哪 
个 个 体 的 对 应 基因 。 一 致 交叉 的 操作 过 程 表示 如 下 : 当 屏 项 字 位 为 0 时 ,新 个 体 A' 继 承 旧 
个 体 A 中 对 应 的 基因 , 当 屏 项 字 位 为 1 时 ,新 个 体 A 继承 旧 个 体 B 中 对 应 的 基因 ,由 此 生 
成 一 个 完整 的 新 个 体 A"。 反 之 ,可 生成 新 个 体 B  。 显 然 ,一 致 交叉 包括 在 多 点 交叉 范围 内 。 
一 个 一 致 交叉 的 例子 表示 如 下 : 
旧 个 体 A 001111 
旧 个 体 B 111100 


屏蔽 字 010101 


新 个 体 A”011110 
新 个 体 B′ 101101 


3. 变异 (mutation) 算 子 


选择 和 交叉 算 子 基本 上 完成 了 遗传 算法 的 大 部 分 搜索 功能 ,而 变异 则 增加 了 遗传 算法 
找到 接近 最 优 解 的 能 力 。 变 异 就 是 以 很 小 的 概率 、 随 机 地 改变 字符 串 某 个 位 置 上 的 值 。 变 
异 操作 是 按 位 (bit) 进 行 的 , 即 把 某 一 位 的 内 容 进 行 变异 。 在 二 进 制 编码 中 ,就 是 将 某 位 0 
变 成 1,1 变 成 0。 变异 发 生 的 概率 即 变 异 概率 P 都 取得 很 小 (一 般 在 0.001 一 0. 02 之 间 )， 
它 本 身 是 一 种 随机 搜索 ,然而 与 选择 .交叉 算 子 结合 在 一 起 ,就 能 避免 由 于 复制 和 交叉 算 子 
而 引起 的 某 些 信息 的 永久 性 丢失 ,保证 了 遗传 算法 的 有 效 性 。 

遗传 算法 引入 变异 的 目的 有 两 个 : 一 是 使 遗传 算法 具有 局 部 的 随机 搜索 能 力 。 当 遗传 
算法 通过 交叉 算 子 已 接近 最 优 解 邻 域 时 ,利用 变异 算 子 的 这 种 局 部 随机 搜索 能 力 可 以 加 速 
向 最 优 解 收敛 。 显 然 , 此 种 情况 下 的 变异 概率 应 取 较 小 值 ,否则 接近 最 优 解 的 模式 会 因 变 异 
而 遭 到 破坏 。 二 是 使 遗传 算法 可 维持 群体 多 样 性 ,以 防止 出 现 未 成 熟 收敛 现象 。 此 时 变异 
概率 应 取 较 大 值 。 

(1) 基本 变异 算 子 

基本 变异 算 子 是 指 对 群体 中 的 个 体 码 串 随机 挑选 一 个 或 多 个 基因 位 并 对 这 些 基 因 位 的 
基因 值 作 变 动 ( 以 变异 概率 P, 做 变动 )。{0.1) 二 值 码 串 中 的 基本 变异 操作 如 下 : 


个 体 4 1011011 一 110011 个 体 4' 


变异 基因 位 


(2) 逆转 算 子 
逆转 算 子 是 变异 算 子 的 一 种 特殊 形式 。 它 的 基本 操作 内 容 是 : 在 个 体 码 串 中 随机 挑选 
两 个 逆转 点 ,然后 将 两 个 逆转 点 间 的 基因 值 以 道 转 概 率 P; 道 向 排序 。{0,1} 二 值 码 串 的 逆 


站 


转 操 作 如 下 : 


逆 
个 体 4 10 1101000 逆转 -1001011 00 个 体 4" 


逆转 点 

由 此 可 见 ,通过 逆转 操作 ,个 体 中 从 基因 位 3 至 基因 位 7 之 间 的 基因 排列 得 到 逆转 , 即 
从 11010 序列 变 成 了 01011 序列 。 这 一 逆转 操作 可 以 等 效 为 一 种 变异 操作 ,但 是 逆转 操作 
的 真正 目的 并 不 在 变异 (否则 仅 用 变异 操作 就 行 了 ) 而 在 实现 一 种 重新 排序 操作 。 所 谓 重新 
排序 是 指 对 个 体 中 基因 排列 进行 重新 组 合 . 但 并 不 影响 该 个 体 的 特征 。 在 自然 界 生 物 的 基 
因 重 组 中 就 有 这 种 重新 排序 的 机 制 。 对 遗传 算法 而 言 ,采用 这 种 重新 排序 ,目的 是 为 了 提高 
积木 块 (高 适应 度 个 体 ) 的 繁殖 率 。 实 际 上 ,在 用 遗传 算法 求解 某 些 问题 时 ,群体 中 的 有 些 个 
体 的 基因 排序 常常 会 出 现 这 样 的 情况 , 即 对 形成 积木 块 有 用 的 某 些 基因 分 离 较 远 ,此 时 采用 
一 般 的 交叉 会 破坏 相应 的 积木 块 的 生成 。 因 此 ,有 必要 对 这 些 基 因 进 行 重新 排序 但 又 不 损 
坏 整个 个 体 的 特征 ( 即 适 应 值 ) 。 

(3) 自 适应 变异 算 子 

该 算 子 与 基本 变异 算 子 的 操作 内 容 类 似 ,惟一 不 同 的 是 变异 概率 P,, 不 是 固定 不 变 ,而 
是 随 群 体 中 个 体 的 多 样 性 程度 而 自 适 应 调整 。 一 般 是 根据 交叉 所 得 两 个 新 个 体 的 海 明 距 离 
进行 变化 。 海 明 距 离 越 小 ,P,。 越 大 ,反之 P, 越 小 。 

遗传 算法 中 ,交叉 算 子 因 其 全 局 搜索 能 力 而 作为 主要 算 子 ,变异 算 子 因 其 局 部 搜索 能 力 
而 作为 辅助 算 子 。 遗 传 算法 通过 交叉 和 变异 这 一 对 相互 配合 又 相互 竞争 的 操作 而 使 其 具备 
兼顾 全 局 和 局 部 的 均衡 搜索 能 力 。 所 谓 相互 配合 ,是 指 当 群体 在 进化 中 陷于 搜索 空间 中 某 
个 超 平面 而 仅 靠 交 叉 不 能 摆脱 时 ,通过 变异 操作 可 有 助 于 这 种 摆脱 。 所 谓 相 互 竞争 ,是 指 当 
通过 交叉 已 形成 所 期 望 的 模式 时 ,变异 操作 有 可 能 破坏 这 些 模式 。 因 此 ,如 何 有 效 地 配合 使 
用 交叉 和 变异 操作 ,是 目前 一 个 重要 的 研究 内 容 。 


10.4.3 遗传 算法 简 例 
问题 : 求解 f(z)==x? 在 [0,31] 上 的 最 大 值 。 
1. 初始 种 群 


(1) 编码 : 用 5 位 二 进 制 表示 xz, 有 
Z 一 0 一 0 0 00 0， x=3l] 习 11111 
(2) 初始 种 群 
随机 产生 4 个 个 体 : 13 , 24 , 8 ,19( 分 别 用 二 进 制 表示 )。 
(3) 适应 值 f; 
直接 用 目标 函数 作为 适应 值 : f(z) 二 xx? 
Q@ 非 负 ; @ 逐步 增 大 。 
(4) 选择 率 P; 和 期 望 值 
选择 率 : B= /2 
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平均 适应 值 ， f= Jin 


期 望 值 : RE 
(5) 实 选 值 
期 望 值 取 整 数 ,具体 计算 如 表 10. 1 所 示 。 
表 10.1 初始 种 群 参数 计算 


编 号 | 初始 种 群 位 串 | 参数 值 > 值 目标 适应 值 f(x) 一 z*| 选择 率 /:/ 2 | 期望值 /了 | 实 选 什 

1 01101 13 169 0.14 0.58 Vy 

2 11000 24 576 0.49 1.97 2 

3 01000 8 64 0.06 0.22 0 

4 10011 19 361 0..31 1.23 1 
总 和 >) 1170 1.00 4.00 4.0 
平均 值 293 0.25 1.00 1.0 
最 大 值 576 0.49 1.97 2.0 

2. 遗传 一 代 


具体 计算 如 表 10. 2 所 示 。 
表 10.2 初始 种 群 遗 传 过 程 


选择 后 的 交配 池 交叉 对 象 交叉 位 置 要 
(下 划 线 部 分 交叉 ) | (随机 选择 ) (随机 选择 ) ee 
01101 4 4 0 1 10 0 钢 144 
11000 1 4 L LOO 25 625 
| i 0 起 区 . 站 4 上 ES -| 2 729 
| WE | a i | 3 和 10 0 0 0 16 256 
总 和 >， 1754 
平均 值 439 
最 大 值 729 


表 10.1、 表 10. 2 的 具体 说 明 如 下 : 

(1) 选择 (繁殖 ) 

在 种 群 中 , 实 选 值 (期 望 值 ) 高 者 多 繁殖 ; 实 选 值 (期 望 值 ) 低 者 少 繁 殖 或 不 繁殖 。 繁 殖 
(复制 ) 的 个 体 放 入 交配 池 中 。 

(2) 交叉 

随机 选择 交配 对 象 ( 相 同 个 体 不 交配 ), 如 个 体 1 和 2,3 和 4。 随 机 选择 交叉 点 进行 
交叉 。 

(3) 变异 

取 变 异 概率 P. 一 0. 01, 表 示 每 100 个 个 体 中 有 1 个 个 体 的 1 位 发 生变 异 。 上 例 中 未 进 
行 个 体 变异 。 

，235 。 


遗传 得 到 的 新 的 种 群 ,其 平均 值 和 最 大 值 都 有 很 大 提高 。 

均值 : 293 一 439。 

最 大 值 : 576 一 729 。 

新 种 群 中 4 个 个 体 ,有 2 个 变 好 : 25,27; 2 个 变 坏 : 12,16。 

3. 遗传 第 二 代 

新 种 群 的 参数 计算 如 表 10. 3 所 示 ,新 种 群 的 遗传 过 程 如 表 10. 4 所 示 。 
表 10.3 ”新 种 群 参数 计算 


编 号 | 初始 种 群 位 串 | 参数 值 > 值 目标 适应 值 /(z) 一 | 选择 率 /:/ 2 | 期 望 值 广 / 太 | 实 选 值 

1 01100 12 144 0.08 0. 33 0 

2 11001 25 625 0.36 i 1 

3 11011 27 729 0.42 1.66 2 

4 10000 16 256 0.15 0.58 1 
总 和 》) 1754 1.00 4.00 4.0 
平均 值 439 0;25 1.00 1.0 
最 大 值 729 0.42 1.66 2.0 


表 10.4 新 种 群 的 遗传 过 程 


选择 后 的 交配 池 交叉 对 象 交叉 位 置 ee | 
(下 划 线 部 分 交叉 ) | (随机 选择 ) (随机 选择 ) 7 
| i a | 2 1 | 27 729 
| WE WN | 1 i 有 "下 衣 起 和 25 625 
a 4 3 11000 24 576 
i 0 O00 3 3 Vi 19 361 
总 和 >， 2291 
平均 值 572 
最 大 值 929 


单纯 用 交叉 而 没有 用 变异 , 则 遗传 多 少 代 得 不 到 最 优 解 31(11111 )。 主 要 是 第 三 位 所 
有 个 体 都 是 0, 这样 只 能 得 到 27(11011) 次 优 和解。 

车 在 第 四 位 中 挑选 一 个 个 体 进行 变异 ,由 0 变 成 1, 再 进行 遗传 将 会 得 到 最 优 解 。 
10.4.4 遗传 算法 的 特点 

遗传 算法 是 模拟 自然 选择 和 生物 遗传 机 制 的 优化 算法 ,利用 3 个 遗传 算 子 产生 后 代 , 通 
过 群体 的 迭代 ,使 个 体 的 适应 性 不 断 提高 ,最终 群 体 中 适应 值 最 高 的 个 体 即 是 优化 问题 的 最 
优 或 次 优 解 。 遗 传 算法 与 传统 的 优化 方法 有 不 同 的 特点 。 


1. 遗传 算法 是 进行 群体 的 搜索 


传统 的 优化 方法 是 从 一 个 点 开始 搜索 。 如 疏 山 法 (climbing) 是 从 当前 点 邻近 的 点 中 选 
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出 新 点 ,如 果 新 点 的 目标 函数 值 更 好 ,那么 该 新 点 就 变 成 当前 点 ,否则 就 选择 和 测试 其 他 邻 
近 点 。 如 果 目 标 函 数值 没有 更 进一步 的 改进 , 则 算法 终止 。 很 显然 , 疏 山 法 只 能 提供 局 部 最 
优 解 , 它 依赖 于 初始 点 的 选择 。 

遗传 算法 是 对 多 个 个 体 进行 群体 的 搜索 , 即 在 问题 空间 中 不 同 区 域 进 行 搜索 ,构成 一 个 不 
断 进 化 的 群体 序列 。 对 于 复杂 问题 的 多 峰 情况 ,遗传 算法 也 能 以 很 大 的 概率 找到 全 局 最 优 和解 。 


2. 遗传 算法 是 一 种 随机 搜索 方法 


遗传 算法 使 用 3 个 遗传 算 子 ,选择 算 子 通过 选择 概率 复制 个 体 。 交 叉 算 子 通过 交叉 概 
率 在 交配 池 中 决定 配对 的 个 体 是 否 需要 进行 交叉 操作 。 变 异 算 子 通过 变异 概率 确定 某 些 基 
因 位 上 的 值 进行 变异 。 可 见 ,3 个 遗传 算 子 都 是 随机 操作 ,利用 概率 转移 规则 产生 好 的 后 
代 , 引 导 其 搜索 过 程 朝 着 更 优化 的 解 空间 移动 。 可 见 遗传 算法 虽然 是 一 个 随机 搜索 方法 ,但 
是 它 是 高 效 有 方向 的 搜索 ,而 不 是 一 般 随 机 搜索 方法 那 种 无 方向 的 搜索 。 


3. 遗传 算法 处 理 的 对 象 是 个 体 ,而 不 是 参 变量 自身 


遗传 算法 要 求 将 优化 问题 的 参 变量 编码 成 长 度 有 限 的 位 串 个 体 , 即 参 变量 是 个 体 的 组 
成 部 分 。 通 过 遗传 算 子 操作 位 串 个 体 ,并 从 中 找 出 高 适应 值 的 位 串 个 体 。 遗 传 算法 不 是 对 
参数 变量 进行 直接 操作 。 

编码 操作 可 直接 对 结构 对 象 进行 操作 。 结 构 对 象 泛 指 集合 .序列 矩阵. 树 、 图 . 链 和 表 
等 一 维 或 二 维 结构 形式 的 对 象 。 这 一 特点 使 得 遗传 算法 具有 广泛 的 应 用 领域 。 


4. 遗传 算法 不 需要 导数 或 其 他 辅助 信息 
一 般 传统 的 搜索 算法 需要 一 些 辅助 信息 ,如 梯度 算法 需要 求 导 数 , 当 这 些 信 息 不 存在 时 


(如 函数 不 连续 时 ) ,这 些 算 法 就 失效 。 而 遗传 算法 只 需要 适应 值 信息 ,用 它 来 评估 个 体 , 引 
导 搜索 过 程 朝 着 搜索 空间 的 更 优化 的 解 区 域 移动 。 

5. 隐 含 并 行 性 

遗传 算法 实质 上 是 模式 的 运算 。 对 于 一 个 长 度 为 ! 的 串 , 其 中 隐 含 着 2 个 模式 。 若 群 
体 规 模 为 n, 则 其 中 隐 含 的 模式 个 数 介 于 2 和 ?2: 之 间 。Holland 指出 ,遗传 算法 实际 上 是 
对 个 位 串 个 体 进行 运算 ,但 却 隐 含 地 处 理 了 大 量 的 模式 ,这 一 性 质 称 为 隐 含 并 行 性 (im- 


plicit parallelism) 。 


隐 含 的 并 行 性 是 遗传 算法 优 于 传统 的 搜索 方法 的 关键 所 在 。 
10.5 基于 遗传 算法 的 分 类 学 习 系统 


10.5.1 概述 


1978 年 Holland 等 人 实现 了 第 一 个 基于 遗传 算法 的 机 器 学 习 系 统 CS-1。 该 系统 由 消 
息 表 (message list) 分 类 器 (classifier) 的 字符 串 规则 .遗传 算法 及 一 个 信息 分 配 机 制 组 成 。 
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他 还 提出 了 桶 队 (bucket brigade) 算 法 。1980 年 Smith 实现 了 分 类 器 系统 LS-1。 尽 管 LS-1 
诞生 在 CS-1 之 后 ,但 LS-1 系统 在 若干 重要 的 方面 与 CS-1 有 根本 性 的 差别 。 具 体 表现 在 字 
符 串 规则 .染色 体 表示 方法 .搜索 结构 的 形成 以 及 遗传 操作 算 子 的 应 用 上 。LS-1 系统 影响 
更 大 。 

分 类 器 系统 是 一 种 学 习 字 符 串 规则 (又 称 分 类 器 ) 的 学 习 系 统 , 它 由 规则 与 消息 (Crule 
and message) 系 统 、 信 任 分 配 (Capportionment of credit) 系 统 及 遗传 算法 3 个 主要 部 分 组 成 ， 
其 中 规则 与 消息 系统 是 产生 式 系统 的 一 种 特殊 形式 。 产 生 式 规则 的 一 般 形式 为 I[F 二 condi- 
tion>THEN<action 之 。 它 具有 计算 完备 性 , 且 其 描述 也 较 方 便 , 一 条 规则 或 一 个 规则 集 
往往 能 将 一 种 复杂 的 情况 非常 紧凑 地 描述 出 来 。 因 而 它 为 众多 的 专家 系统 所 采用 。 在 分 类 
器 系统 中 ,对 产生 式 规则 的 语法 做 了 很 大 的 限制 ,采用 了 定 长 的 表示 形式 ,从 而 适 于 采用 遗 
传 操作 。 

传统 的 专家 系统 在 每 一 次 匹配 中 采用 单条 规则 激活 的 串 行 运行 方式 。 分 类 器 系统 采用 
了 并 行 激活 方式 , 即 在 每 一 匹配 周期 ,允许 多 条 规则 被 同时 激活 ,只 有 在 出 现 两 个 互 斥 的 动 
作 或 当 匹 配 的 规则 集 大 小 超出 消息 表 的 容量 时 , 才 考 虑 规则 的 选择 问题 。 

传统 的 专家 系统 中 的 规则 和 规则 相应 的 重要 程度 (strength) 是 事先 由 程序 设计 者 根据 
专家 经 验 给 出 ,是 固定 不 变 的 。 而 分 类 器 系统 是 一 个 自 适 应 的 学 习 系 统 ,使 用 的 是 概率 转换 
规则 ,而 不 是 确定 性 规则 。 其 规则 和 相应 的 重要 程度 是 不 固定 的 ,这 是 需要 学 习 的 关键 
信息 。 


10.5.2 遗传 分 类 学 习 系统 GCLS 的 基本 原理 


我 们 研制 了 一 种 新 的 遗传 分 类 器 学 习 系统 (genetic classifier learning system,GCLS) ， 
与 基本 的 分 类 器 系统 相 比 ,GCLS 系统 采用 了 训练 和 测试 同时 进行 的 策略 ,使 得 系统 能 够 在 
训练 后 继续 学 习 , 从 而 能 更 好 地 适应 不 断 变 化 的 客观 环境 。GCLS 系统 还 设计 了 工作 和 精 
练 两 种 不 同 的 分 类 器 ,通过 精练 分 类 器 对 规则 的 进一步 处 理 ,减少 了 所 获 规则 的 元 余 性 。 
GCLS 系统 中 设计 的 信任 分 配 机 制 可 有 效 地 处 理 训 练 样本 带 有 噪声 和 异常 特例 等 问题 , 同 
时 体现 了 规则 与 训练 样本 的 统计 规律 ,使 得 判别 结果 容易 用 背景 知识 进行 定性 .定量 相 结合 
的 解释 ,从 而 可 获得 与 客观 环境 相 容 的 判别 规则 。 


1. GCLS 系统 结构 


遗传 分 类 学 习 系 统 GCLS 的 结构 如 图 10. 15 所 示 。 
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10.15 ”遗传 分 类 学 习 系 统 GCLS 的 结构 
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客观 环境 信息 通过 分 类 器 系统 的 检测 器 (detector) 被 编码 成 有 限 长 的 消息 (messages)。 
然后 发 往 消息 表 ; 消息 表 中 的 消息 触发 位 串 规则 ( 称 为 分 类 器 ) ,被 触发 的 分 类 器 又 向 消息 
表 发 消息 ,这 些 消息 又 有 可 能 触发 其 他 的 分 类 器 或 引发 一 个 行动 ,通过 作用 器 (effector) 作 
用 于 客观 环境 。 
(1) 检测 器 (detector) 
将 环境 信息 由 条 件 部 分 和 结论 部 分 组 成 的 训练 的 例子 集 ,编码 成 二 进 制 字符 串 的 消息 。 
一 条 消息 M; 是 一 个 二 元 组 ,其 形式 为 M; 二 [x;,yij, 其 中 : i 为 消息 号 ; z 为 条 件 部 分 , 即 训 
练 例子 的 各 特征 编码 ,x;€E {0,1)”"; y 为 结论 部 分 , 即 训练 例子 的 类 别 ,wE{0,1)。 例 如 ， 
[(10001011),(1011)] 是 一 条 由 一 个 8 位 条 件 和 4 位 结论 组 成 的 消息 。 
(2) 消息 表 (message list) 
消息 表 包 含 当 前 所 有 的 消息 (训练 例子 集 )。 每 个 消息 由 message 和 action 两 部 分 
组 成 。 
(3) 分 类 器 (classifier) 
分 类 器 系统 与 一 般 的 机 器 学 习 系统 不 同 ,最 后 所 获得 的 规则 中 包含 通配符 # ,会 出 现 大 
量 的 宛 余 规则 ,如 : 1# #0,1110 是 一 致 的 。 一 般 来 说 ,应 该 使 系统 产生 最 小 的 规则 集 , 获 
得 较 高 的 性 能 。 规 则 集 越 小 ,系统 的 时 间 性 能 当然 越 好 。 
一 个 分 类 器 是 由 当前 遗传 产生 的 一 条 规则 组 成 ,分 类 器 表 由 所 有 分 类 器 组 成 ,构成 了 规 
则 集 。 一 个 规则 C; 是 一 个 三 元 组 ,形式 如 下 : 
GC: = [U,V ,fitness;] 
其 中 ,U; 是 条 件 部 分 (condition) ,U;E€ {0,1,#)",# 表 示 通 配 符 ; V; 是 结论 部 分 (action)， 
ViE (0,1}”; fitness; 是 规则 i 的 适应 值 ,又 是 一 个 二 元 组 ,其 形式 如 下 : 
fitness; = [fitl ,fit2] 
其 中 : fitl ,fit2 均 为 正 整数 ,分 别 表 示 在 该 规则 覆盖 的 范围 内 ,与 规则 结论 一 致 和 不 一 致 的 
消息 个 数 。 
在 分 类 器 中 ,将 最 后 获得 的 规则 放 入 精练 分 类 器 中 。 
(4) 测试 表 (test list) 
测试 表 是 由 所 有 测试 例子 组 成 ,一 个 测试 例子 T; 也 是 一 个 同 消息 形式 一 样 的 二 元 组 ， 
只 是 它 的 结论 部 分 y;€ { * )”",* 表示 未 确定 。 当 它 到 精练 分 类 器 匹配 规则 后 ,其 结论 部 分 
yi 就 被 赋值 成 与 消息 M; 完全 一 样 形式 , 即 wE {0,1)”, 变 成 一 条 新 的 消息 。 结 论 可 直接 作 
用 于 环境 ,也 可 通过 环境 将 新 消息 反馈 给 系统 ,以 便 系 统 能 继续 学 习 下 去 ,从 而 更 好 地 适应 
不 断 变化 的 客观 环境 。 
(5) 作用 器 (effector) 
作用 器 将 所 有 测试 例子 的 判别 结果 (类 别 ) 转 换 成 具体 问题 的 输出 值 , 并 作用 于 环境 。 
遗传 分 类 学 习 系统 GCLS 规则 生成 流程 ,如 图 10. 16 所 示 。 


2. GCLS 系统 的 主要 算法 


(1) 信任 分 配 算法 (credit assignment algorithm,CAA) 
信任 分 配 实 质 上 是 对 各 条 规则 (分 类 器 ) 作 用 于 环境 的 有 效 性 进行 评价 ,而 本 系统 中 的 
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图 10.16 GCLS 规 则 生成 过 程 


环境 就 是 前 面 所 说 的 训练 例子 集 , 将 规则 (分 类 器 ) 与 消息 表 中 的 消息 逐个 匹配 ,根据 匹配 的 
成 功 与 否 ,来 修改 规则 的 适应 值 ,以 保证 好 的 规则 的 生存 ,不 适应 的 规则 的 消亡 ,其 主要 步 又 
如 下 : 

Q@ 初始 化 规则 的 适应 值 , 即 : fit1 0,fit2<0。 

@ 从 消息 表 LMJ 中 取出 一 条 消息 ,与 工作 分 类 器 LWC] 中 的 规则 逐个 进行 比较 。 

IF 条 件 和 结论 均 匹 配 即 消息 的 message 与 规则 的 condition 匹配 ,消息 的 action 与 规 
则 的 action 匹配 ,THEN fitl<fitl 十 1; 

IF 条 件 匹配 ,结论 不 匹配 ,THEN fit2<-fit2 十 1; 

IF 条 件 不 匹配 ,THEN fitness<fitness。 

@ 返回 步骤 @, 直 到 [MJ 中 的 消息 全 部 取 完 。 

(2) 遗传 算法 (genetic algorithms) 

遗传 算法 是 用 来 产生 新 的 规则 。 在 GCLS 系统 中 ,遗传 算法 的 调用 是 在 工作 分 类 器 
中 每 一 新 的 种 群 产生 之 后 。 系 统 采用 了 一 种 限制 交配 策略 ,也 就 是 本 地 算 子 中 的 受 限 交 
配 , 即 只 允许 同类 (规则 的 结论 部 分 相同 ) 的 规则 进行 交叉 。 这 样 ,对 同一 结论 的 规则 ,只 
允许 其 条 件 部 分 进化 。 假 如 规则 的 条 件 和 结论 同时 进化 ,就 可 能 引起 种 群 不 收敛 的 情 
况 。 此 外 ,产生 的 新 规则 并 不 取代 老 规则 ,而 是 与 老 规则 合并 到 一 起 ,形成 工作 分 类 器 的 
新 的 初始 种 群 。 

GCLS 中 遗传 算法 的 主要 步骤 如 下 : 

g 在 工作 分 类 器 中 ,根据 与 各 规则 适应 值 成 正比 的 概率 ,选择 复制 出 & 个 规则 。 选 择 


复制 策略 因 具 体 问题 而 不 同 。 本 系统 中 采用 了 比例 法 选择 复制 。 按 /;/ 六 取 整 (是 X， 
的 适应 值 ; 2 是 种 群 中 各 规则 的 适应 值 之 和 ) ,来 决定 第 i 个 规则 X; 在 下 一 代 中 应 复制 
其 自身 的 数目 &;, 而 K = Dkis 
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@ 采用 遗传 算 子 (交叉 、 变 异 ) ,重新 产生 上 个 新 的 规则 。 在 GCLS 中 , 按 一 定 的 概率 P。 
从 四 中 随机 地 选择 出 一 对 规则 进行 交叉 ,同样 ,也 是 按 一 定 的 概率 P。 对 规则 中 的 某 些 位 进 
行 变 异 。 这 里 的 交叉 概率 P. 和 变异 概率 P,, 都 是 经 验 参 数 ,在 不 同 应 用 问题 中 的 取 值 都 是 
不 同 的 。 

(3) 合并 操作 Cmerge operation) 

采用 合并 操作 旨 在 减少 元 余 规则 。 

@ 对 于 工作 分 类 器 CWCJ 中 初始 种 群 的 每 一 规则 , 若 其 对 应 的 fitl 恒 不 等 于 0, 且 fit2 
等 于 0, 则 保留 ,否则 淘汰 。 

@ 将 保留 下 来 的 规则 两 两 匹配 。 设 R1、R2 为 两 个 保留 下 来 的 规则 。 

IF R1 之 R2, 且 fit1(R1) 二 fit1(R2), THEN 保留 R2, 淘 汰 R1 

IF R1 忆 R2, 且 fit1(R1) > fit1(R2), THEN 保留 R1, 淘 汰 R2 

(4) 冲突 处 理 (conflict process) 

一 般 的 分 类 器 系统 不 包括 矛盾 例子 的 处 理 , 而 在 实际 应 用 领域 尤其 在 预测 领域 ,这 种 情 
况 经 常 出 现 ,如 天 气 预报 。 所 以 系统 要 对 这 些 矛 盾 例子 能 够 处 理 。GCLS 系统 中 设计 的 冲 
突 处 理 是 将 消息 表 LM] 中 的 消息 两 两 匹配 ,对 于 那 种 只 有 条 件 匹配 ,而 结论 不 匹配 的 消息 作 
为 冲突 消息 ,记录 下 来 ,并 都 从 LMJ 中 删除 。 在 分 类 器 中 删除 已 生成 的 冲突 规则 。 

(5) 增生 操作 (supplement operation) 

如 果 分 类 器 [LC] 中 没有 一 个 与 消息 匹配 的 规则 , 则 用 增生 操作 生成 一 个 与 之 相 匹 配 的 
规则 。 在 消息 位 串 上 对 条 件 部 分 的 每 一 位 按 系 统 给 定 的 # 的 生成 率 进行 变异 。 若 发 生变 异 
则 由 1 或 0 改 为 # ,否则 不 变 。 然 后 将 变异 过 的 消息 作为 新 的 规则 的 条 件 部 分 ,结论 部 分 随 
机 产生 。 新 生成 的 规则 加 入 到 [CJ 中 的 方法 有 两 种 : 一 是 用 新 生成 的 规则 置换 掉 [LCJ 中 的 
适应 值 最 小 的 规则 。 二 是 直接 加 入 到 [CJ 中 ,只 有 当 [Cj 的 增长 超过 一 定 限 度 时 才 进 行 淘 
状 。 这 样 做 的 好 处 是 在 系统 运行 的 初期 , 当 适 应 值 的 强 弱 差别 还 不 明显 时 ,能 较 好 地 避免 将 
有 发 展 潜力 、 好 的 规则 淘汰 掉 。 在 本 系统 中 ,采用 了 后 一 种 方法 。 

此 外 ,在 GCLS 系统 中 采用 了 训练 与 测试 同时 进行 。 一 般 的 分 类 器 系统 同 现存 的 机 器 
学 习 系统 一 样 : 训练 与 测试 是 分 开 进行 的 ,规则 的 获取 完全 依赖 于 训练 例子 的 选取 的 好 坏 。 
例如 ,训练 例子 中 正 反 例 的 比例 应 与 实际 问题 中 正 反 例 的 比例 相同 ,这 一 般 是 不 可 能 做 到 
的 , 且 选 取 的 训练 例子 不 可 能 包含 实际 问题 中 的 所 有 情况 。 而 GCLS 的 这 种 策略 使 系统 能 
在 训练 后 继续 学 习 , 就 能 保证 不 依赖 于 选取 的 例子 ,从 而 能 更 好 地 适应 不 断 变化 的 客观 环 
境 , 得 到 更 符合 实际 的 规则 。 


3. GCLS 系统 获取 规则 的 过 程 


GCLS 系统 的 学 习 过 程 是 一 个 获取 规则 的 过 程 。 规 则 的 获取 是 通过 初始 化 一 个 随机 的 
种 群 (分 类 器 ) ,而 后 触发 系统 的 信任 分 配 机 制 和 遗传 算法 等 操作 ,直到 获得 一 组 源 于 环境 信 
息 ( 训 练 集 ) 的 、 达 到 期 望 状态 或 特征 的 规则 (分 类 器 ) ,再 把 最 后 获得 的 规则 复制 到 一 个 精练 
文件 (精练 分 类 器 ) 中 ,以 供 下 一 步 测试 未 知 例子 的 类 别 使 用 ,至 此 ,GCLS 系统 的 一 个 学 习 
过 程 就 已 结束 。 
在 GCLS 系统 中 一 次 学 习 过 程 的 结束 是 当 目 前 分 类 器 已 收敛 , 即 种 群 的 规则 与 其 父 代 
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完全 相同 ,并且 各 规则 的 适应 值 已 连续 p 次 保持 不 变 , 也 就 是 说 ,当前 工作 种 群 已 不 青 进化 
了 ,pp 是 系统 根据 不 同 的 应 用 问题 而 事先 设置 的 一 个 参数 ,在 本 系统 应 用 实例 中 jp 均 
取 100。 

GCLS 系统 的 执行 步骤 可 概括 如 下 : 

(1) 初始 化 GCLS 的 所 有 预 置 参 数 。 如 每 一 分 类 器 [C] 中 初始 规则 数目 a; 交叉 、 变 异 
概率 P.、P。; 判断 分 类 器 收敛 的 参数 p 等 ; 初始 化 分 类 器 [C], 设 为 初始 种 群 0, 随 机 产生 ? 
个 规则 ,并 给 每 个 规则 赋 一 个 相等 的 初始 适应 值 。 

(2) 将 环境 信息 (训练 集 ) 通 过 检测 器 编码 成 二 进 制 消息 放 入 消息 表 LMJ] 中 。 

(3) 对 [MJ 进行 冲突 处 理 。 将 LMDJ 中 的 消息 进行 两 两 匹配 ,把 只 有 条 件 匹配 而 结论 不 
匹配 的 消息 作 冲 突 处 理 后 ,直接 送 往 精 练 分 类 器 [RCJ 中 。 

(4) 对 初始 种 群 0 调用 信任 分 配 算法 ,修改 其 中 的 规则 适应 值 。 如 果 种 群 0 中 没有 与 
消息 匹配 的 规则 , 则 进行 增生 操作 ,生成 一 个 相 匹 配 的 规则 ,将 该 规则 直接 加 入 到 种 群 0 中 。 

(5) 对 种 群 0 进行 合并 操作 ,合并 后 的 种 群 设 为 种 群 1。 

(6) 假如 种 群 1 已 收敛 , 则 复制 该 种 群 的 规则 到 精练 分 类 器 LRC] 中 ,转向 步骤 (9) 。 

(7) 调用 遗传 算法 ,生成 新 一 代 种 群 2, 将 其 与 种 群 1 合并 ,而 后 送 给 种 群 0, 从 而 形成 
新 的 种 群 0。 

(8) 返回 步骤 (4) 。 

(9) 对 测试 表 LT] 调 用 精练 分 类 器 规则 ,生成 LT] 的 结论 部 分 。 

(10) 将 [TJj 送 往 作用 器 ,转换 成 实际 的 输出 值 ,以 便 作用 于 环境 。 


10.5.3 ”遗传 分 类 学 习 系 统 GCLS 的 应 用 
1. 应 用 说 明 


这 是 一 个 学 习 识别 脑 出 血 和 脑 血栓 两 种 疾病 的 诊断 规则 的 应 用 实例 ,这 个 问题 实际 上 
是 从 大 量 已 知 患 者 病例 (训练 例子 集 ) 中 找到 这 两 类 病 的 识别 规则 。 
在 这 一 应 用 实例 中 ,实际 上 只 有 两 种 类 别 : 脑 出 血 和 脑 血 栓 。 
为 了 作出 判断 ,应 当 考 虑 如 下 几 个 方面 的 特征 (属性 ): 
(1) 病人 的 既往 史 , 包 括 : 高 血压 (有 : 01, 无 : 00); 动脉 硬化 (有 : 01, 无 : 00)。 
(2) 起 病 方式 ( 快 : 01, 慢 : 00)。 
(3) 局 部 症状 ,包括 : 
. 偏 竣 ( 是 : 01, 否 : 00)。 
.瞳孔 不 等 大 (是 : 01, 否 : 00)。 
.两 便 失禁 (是 ; 01, 否 : 00)。 
. 语言 障碍 (是 : 01, 否 : 00)。 
e. 意识 障碍 (无 : 00, 深 度 : 01, 轻 度 : 10)。 
(4) 病理 反射 ( 阳 : 01, 阴 : 00)。 
(5) 膝 腿 反 射 (无 : 00 ,活跃 : 01, 不 活跃 : 10) 。 
(6) 病情 发 展 ( 快 : 01, 慢 : 00) 。 
，242 。 
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上 面 是 从 6 个 方面 12 个 特征 来 识别 诊断 患者 到 底 得 的 是 脑 出 血 还 是 脑 血栓 。 
2. 获取 知识 


我 们 从 200 多 个 脑 出 血 和 脑 血 栓 病人 的 病例 中 选 出 30 个 病例 作为 训练 样本 , 选 出 100 
个 作为 测试 样本 。 

本 实例 采用 二 进 制 编码 方式 。 每 个 训练 例子 是 由 12 个 特征 和 1 个 类 别 组 成 ,每 个 特征 
和 类 别 都 由 2 位 二 进 制 字符 表示 。 那 么 ,将 例子 编码 成 二 进 制 字符 串 的 消息 就 是 一 个 由 24 
位 条 件 和 2 位 结论 组 成 的 二 元 组 ,例如 消息 M=[(0100010101010110100101),(01)]。 

训练 集 是 由 15 个 脑 出 血 和 15 个 脑 血栓 患者 组 成 30 个 训练 样本 。 本 实验 在 对 30 个 训 
练 样本 进行 学 习 后 ,得 到 12 个 规则 ,学 习 终 止 于 第 170 代 。 


获取 的 主要 规则 如 下 : 

(1) 高 血压 三 有 人 瞳孔 不 等 大 = 是 信 膝 腿 反 射 = 不 活跃 ”一 脑 出 血 (11) 
(2) 瞳孔 不 等 大 = 是 人 语言 障碍 = 是 一 脑 出 血 (12) 
(3) 高 血压 二 有 人 起 病 方式 = 快 人 意识 障碍 王 深度 一 脑 出 血 (13) 
(4) 高 血压 三 有 人 病情 发 展 = 快 一 脑 出 血 (15) 
(5) 高 血压 三 有 人 动脉 硬化 = 有 人 起 病 方 式 = 慢 一 脑 血 栓 (13) 
(6) 动脉 硬化 = 有 人 病情 发 展 = 慢 一 脑 血栓 (15) 
(7) 动脉 硬化 二 有 人 意识 障碍 一 无 一 脑 血 栓 (12) 


以 上 括号 内 的 数值 表示 该 规则 的 适应 值 。 
习 题 


1. 说 明神 经 网 络 的 MP 模型 和 Hebb 规则 原理 。 
2. 神经 元 网 络 的 几何 意义 是 什么 ? 

3. 说 明 下 列 样 本 是 什么 类 型 样本 ,为 什么 ? 

(LY 


输 入 输 出 
Xl Xz d 
0 0 0 
0.5 0.5 1 
1 1 0 
(2) 
输 入 输 ”出 
I Tz d 
0 0 0 
0.5 0 1 
1 1 0 


4. BP 模型 中 误差 公式 : 8; = 广 (net) > )0urou 的 含义 是 什么 ? 
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值 以 及 样本 z= 二 1,zx; 二 0,d 二 0 进行 一 次 神经 网 络 计算 和 
学 习 (该 系数 ?一 1, 各 点 阔 值 为 0) 。 


作用 函数 简化 为 
0.95， 不 之 0. 姑 
y= f(r)= Ir+0.5, —0.45<zx<=0.45 w=0.2 
0.05， 工 魏 一 0.45 


.编制 BP 网 络 模型 程序 ,完成 异 或 问题 的 计算 。 
. 遗传 算法 中 的 染色 体 与 基因 是 如 何 表示 的 ? 

. 遗传 算法 的 处 理 流 程 是 怎样 的 ? 

. 遗传 算法 中 如 何 确定 适应 值 函 数 ? 

. 选择 算 子 有 几 种 ? 各 自 的 计算 方法 是 什么 ? 
. 交叉 算 子 有 几 种 ? 各 自 的 操作 方法 是 什么 ? 
. 变异 算 子 有 几 种 ? 各 自 的 操作 方法 是 什么 ? 
. 遗传 算法 的 特点 有 哪些 ? 

. 从 遗传 算法 的 简 例 中 ,说 明 3 个 遗传 算 子 的 作用 是 什么 ? 

. 遗传 分 类 学 习 系 统 GCLS 规则 生成 过 程 的 示意 图 是 什么 ? 

. GCLS 系统 的 信任 分 配 算法 的 步骤 是 什么 ? 

. GCLS 系统 的 遗传 算法 的 主要 步骤 是 什么 ? 

. GCLS 系统 用 于 脑 出 血 、 脑 血栓 疾病 诊断 的 个 体 编码 方式 是 什么 ? 


对 如 图 10. 17 所 示 的 BP 神经 网 络 , 写 出 它 的 计算 公式 ( 含 学 习 公 式 ) ,并 对 其 初始 权 


ed 


图 10.17 BP 神经 网 络 图 


第 山 章 文本 按 沁 与 册 毛 沁 


11.1 文本 挖掘 概述 


11.1.1 文本 挖掘 的 基本 概念 


在 现实 世界 中 ,我们 面 对 的 数据 大 都 是 文本 数据 ,由 各 种 数据 源 ( 如 新 闻 文 章 、 研 究 论 
文 .书籍 .数字 图 书馆 .电子 邮件 和 Web 页面) 的 大 量 文本 组 成 。 由 于 文本 的 信息 量 的 飞速 
增长 ,如 电子 出 版 物 .电子 邮件 .CD-ROM 和 Web 等 ,文本 数据 的 数量 急剧 增长 。 

文本 数据 是 半 结 构 化 数据 , 既 不 是 完全 无 结构 的 也 不 是 完全 结构 化 的 。 例 如 ,文本 可 能 
包含 结构 字段 ,如 标题 \ 作 者、 出 版 日 期 \ 长 度 、 分 类 等 ,也 可 能 包含 大 量 的 非 结构 化 的 文本 ， 
如 摘要 和 内 容 。 

文本 挖掘 (text mining) 也 称 为 文本 数据 挖掘 (text data mining) 。 文 本 挖掘 一 词 出 现 于 
1998 年 第 十 届 欧 洲 机 器 学 习 会 议 (the European Conference On Machine Learning， 
ECML ”98) 上 ,首次 进行 了 关于 文本 挖掘 的 专题 讨论 会 。 组 织 者 Kodratoff 明确 地 定义 文本 
挖掘 的 概念 ,并 分 清 它 与 “信息 检索 ”(information retrieval) 的 不 同 点 和 共同 点 。 他 认为 文 
本 挖掘 的 目的 是 从 文本 集合 中 搜寻 知识 ,并 不 试图 改进 自然 语言 理解 ,并 不 要 求 对 自然 语言 
的 理解 达到 多 高 的 水 平 ,而 只 是 想 利 用 该 领域 的 成 果 ,试图 在 一 定 的 理解 水 平 上 尽 可 能 多 地 
提取 知识 。 因 此 ,文本 挖掘 需要 数据 挖掘 ,语言 学 数据库 以 及 文本 标 引 和 理解 方面 的 专家 
的 参与 。 


1. 概念 


文本 挖掘 是 从 大 量 文本 数据 中 提取 以 前 未 知 的 \ 有 用 的 、 可 理解 的 .可 操作 的 知识 的 过 
程 。 文 本 数据 包括 技术 报告 .文本 集 、 新 闻 、 电 子 邮 件 、 网 页 、 用 户 手册 等 。 文 本 挖掘 对 单个 
文本 或 文本 集 ( 如 Web 搜索 中 返回 的 结果 集 ) 进 行 分 析 , 从 中 提取 概念 ,并 按照 指定 的 方案 
组 织 、 概 括 文本 ,发 现 文本 集中 重要 的 主题 。 它 除了 从 文本 中 提取 关键 词 外 ,还 要 提取 事实 、 
作者 的 意图 、 期 望 和 主张 等 。 这 些 知 识 对 许多 应 用 目标 ,如 市 场 营 销 、 趋 势 分 析 、 需 求 处 理 
等 ,都 是 很 有 用 的 。 

相对 于 数据 挖掘 ,文本 挖掘 面临 的 主要 问题 是 挖掘 的 对 象 是 半 结 构 化 或 非 结 构 化 的 ,而 
且 自 然 语言 文本 中 包含 多 层次 的 歧义 (如 词汇 、 句 法 、 语 义 、 语 用 等 ) 等 。 


2. 主要 任务 


文本 挖掘 的 主要 任务 是 : 
(1) 短语 提取 , 即 在 读 取 大 量 的 非 结 构 化 文本 时 ,应 用 自然 语言 处 理 技术 提取 文本 集中 
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所 有 相关 的 短语 。 提 取 时 要 处 理 同 义 词 和 词义 模糊 现象 。 可 以 形象 地 把 文本 挖掘 看 作 是 一 
支 荧 光 笔 , 它 通读 文本 时 高 亮度 显示 有 关 的 短语 ,这 些 短语 放 在 一 起 就 可 以 得 到 对 文本 的 一 
个 较 好 的 理解 。 

(2) 概念 提取 ( 聚 类 ) , 即 对 短语 之 间 的 关系 建立 一 个 “词汇 网 ”; 将 相关 的 短语 分 组 ,并 
增强 这 些 组 中 最 重要 的 特征 ; 最 后 得 到 的 模式 反映 了 该 文本 集中 的 主要 概念 ; 然后 ,从 提 
取出 的 概念 集中 发 现 未 知 的 知识 。 

(3) 可 视 化 显示 和 导航 , 即 对 挖掘 得 来 的 信息 (如 词 频 ,相关 频率 ,时事 性 话题 .地 域 依 
赖 信息 ,时 间 序 列 等 ) 可 以 从 多 个 视角 进行 分 析 。 


3. 文本 挖掘 与 数据 挖掘 
文本 挖掘 与 数据 挖掘 相 比 ,它们 的 相似 点 在 于 两 者 都 处 理 大量 的 数据 ,都 可 归属 到 知识 
发 现 领域 中 。 它 们 之 间 的 差别 在 于 许多 经 典 的 数据 挖掘 算法 ,如 数值 预测 ,决策 树 等 都 不 太 


适用 于 文本 挖掘 ,因为 它们 依赖 于 结构 化 的 数据 。 而 短语 或 概念 关联 分 析 等 工作 则 是 文本 
挖掘 所 独 有 的 ,如 表 11.1 所 示 。 


表 11.1 文本 挖掘 与 数据 挖掘 的 区 别 


项 目 数据 挖掘 文本 挖掘 

研究 对 象 用 数字 表示 的 、 结 构 化 的 数据 无 结构 或 者 半 结 构 化 的 文本 

对 象 结 关系 数据 库 自由 开放 的 文本 

目标 获取 知识 ,预测 以 后 的 状态 提取 概念 和 知识 

方法 归纳 学 习 、 决 策 树 、 神 经 网 络 . 粗 糙 集 、| 提取 短语 、 形 成 概念 ,关联 分 析 、 聚 类 、 
遗传 算法 等 分 类 


成 熟 度 从 1994 年 开始 得 到 广泛 应 用 从 2000 年 开始 得 到 广泛 应 用 


11.1.2 文本 特征 的 表示 


与 数据 库 中 的 结构 化 数据 相 比 ,文本 具有 有 限 的 结构 ,或 者 根本 就 没有 结构 ,即使 具有 
一 些 结构 ,也 是 着 重 于 格式 ,而 非 文本 内 容 。 不 同类 型 文本 的 结构 也 不 一 致 。 此 外 ,文本 的 
内 容 是 人 类 所 使 用 的 自然 语言 ,计算 机 很 难处 理 其 语义 。 文 本 信息 源 的 这 些 特殊 性 使 得 现 
有 的 数据 挖掘 技术 无 法 直接 应 用 于 其 上 。 所 以 需要 对 文本 进行 预 处 理 ,抽取 代表 其 特征 的 
元 数据 。 这 些 特 征 可 以 用 结构 化 的 形式 保存 ,作为 文本 的 中 间 表 示 形 式 。 

文本 特征 指 的 是 关于 文本 的 元 数据 ,分 为 两 种 : 描述 性 特征 ,例如 文本 的 名 称 ,日 期 \ 大 
小 、 类 型 等 ; 语义 性 特征 ,例如 文本 的 作者 、 机 构 、 标 题 , 内 容 等 。 描 述 性 特征 易于 获得 ,而 语 
义 性 特征 则 较 难 得 到 。 对 于 内 容 这 个 难以 表示 的 特征 ,首先 要 找到 一 种 能 够 被 计算 机 所 处 
理 的 表示 方法 。 

矢量 空间 模型 (VSM) 是 近年 来 应 用 较 多 且 效 果 较 好 的 表示 文本 特征 的 方法 。 在 该 模 
型 中 ,文本 空间 被 看 作 是 由 一 组 正 交 词 条 矢量 所 形成 的 矢量 空间 ,每 个 文本 d 表示 为 其 中 
的 一 个 规范 化 特征 矢量 : 

Vl(d) = (tw (d); os biswi(d); ;ts ,wn ld)) 
其 中 4 为 词 条 项 ,wi(d) 为 在 d 中 的 权 值 。 可 以 将 & 中 出 现 的 所 有 单词 作为 4;, 也 可 以 要 
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求 # 是 d 中 出 现 的 所 有 短语 ,从 而 提高 内 容 特征 表示 的 准确 性 。ww; (4) 一 般 被 定义 为 在 d 
中 出 现 频 率 1f;(4d) 的 函数 , 即 w(d) 二 亚 (1f;(d))。 常 用 的 亚 有 : 


1. 布尔 函数 
1, tfi(d)>0 
各 二 . 
0, tfi(d)=0 
2. 平方 根 函数 
更 一 Vtfi(d) 
3. 对 数 函 数 
亚 = log(tfi(d) 十 1) 
4. TFIDF 函数 


WV = id) xlog() 


二 
其 中 ,N 为 所 有 文本 的 数目 ,n; 为 含有 词 条 i; 的 文本 数目 。 
11.1.3 文本 特征 的 提取 


特征 提取 主要 是 识别 文本 中 代表 其 特征 的 词 项 。 提 取 过 程 是 自动 的 ,提取 的 特征 大 部 
分 是 文本 集中 表示 的 概念 。 文 本 特征 分 为 一 般 特征 和 数字 特征 ,其 中 一 般 特征 主要 包括 动 
词 和 名 词 短语 ,如 人 名 、 组 织 名 等 ; 数字 特征 主要 包括 日 期 \ 时 间 ,、 货 币 以 及 单纯 数字 信息 。 
这 些 特征 包含 重要 的 信息 ,因此 特征 提取 是 一 种 强 有 力 的 文本 挖掘 技术 。 通 过 文本 特征 抽 
取 , 用 于 记录 文本 的 特征 ,可 以 更 好 地 组 织 文本 ,如 文本 的 存储 、 检 索 .过 滤 、 分 类 和 摘要 等 。 

中 文 姓名 识别 属于 中 文 信息 处 理 中 未 登录 词 处 理 的 范畴 。 中 文 姓名 在 文章 中 的 出 现 频 
率 虽 然 不 高 ,但 绝 非 可 以 忽略 ,因为 中 文 姓名 本 身 包 含 着 重要 的 信息 , 它 可 能 是 整个 句子 甚 
至 整个 段落 的 语义 中 心 , 如 果 不 予 处 理 , 将 影响 文本 挖掘 的 性 能 。 数 字 特 征 反映 一 定 的 信 
息 , 但 不 能 表达 文本 的 中 心思 想 ,通常 只 作文 本 挖掘 中 的 参考 信息 。 姓 名 特征 提取 算法 所 提 
取 的 姓名 特征 可 作为 文本 内 容 的 特征 表示 。 

构成 文本 的 词汇 ,数量 是 相当 大 的 ,因此 ,表示 文本 的 向 量 空间 的 维 数 也 相当 大 ,可 以 达 
到 几 万 维 ,因此 需要 压缩 维 数 ,这 样 做 的 目的 主要 有 两 个 : 第 一 ,为 了 提高 程序 的 效率 ,提高 
运行 速度 ; 第 二 ,所 有 几 万 个 词汇 对 文本 分 类 的 意义 是 不 同 的 ,一 些 通用 的 、 各 个 类 别 都 普 
遍 存 在 的 词汇 对 分 类 的 贡献 小 ,在 某 特定 类 中 出 现 比重 大 而 在 其 他 类 中 出 现 比重 小 的 词汇 
对 文本 分 类 的 贡献 大 。 

为 了 提高 分 类 精度 ,对 于 每 一 类 ,应 去 除 那些 表现 力 不 强 的 词汇 ,筛选 出 针对 该 类 的 特 
征 项 集合 。 目 前 存在 多 种 筛选 特征 项 的 算法 ,如 根据 词 和 类 别 的 互信 息 量 判断 \ 根 据 词 炉 判 
断 等 。 

例如 ,根据 词 和 类 别 的 互信 息 量 进行 特征 项 (能 体现 类 别 的 词 ) 抽 取 的 判断 算法 过 程 
如 下 : 

(1) 初始 情况 下 ,该 特征 项 集合 包含 所 有 该 类 中 出 现 的 词 。 

(2) 对 于 每 个 词 ,计算 词 W; 和 类 别 C; 的 互信 息 量 I(W ,C)。 

(3) 对 于 该 类 中 所 有 的 词 , 依 据 上 面 计算 的 互信 息 量 排序 。 

和 


(4) 抽取 一 定数 量 的 词 (互信 息 量 大 的 词 ) 作 为 特征 项 ,具体 需要 抽取 多 少 特征 项 ,目前 
无 很 好 的 解决 方法 ,一般 采用 先 定 初始 值 ,然后 根据 实验 测试 和 统计 结果 确定 最 佳 值 ,一 般 
初始 值 定 在 几 千 左 右 。 


(5) 将 每 类 中 所 有 的 训练 文本 ,根据 抽取 的 特征 项 进行 向 量 压缩 ,精简 向 量 表示 
11.2 文本 挖掘 


11.2.1 文本 挖掘 功能 层次 


文本 挖掘 的 功能 可 以 用 一 个 层次 结构 表示 ,如 图 11. 1 所 示 。 
文本 挖掘 功能 从 顶端 到 底 端 说 明 如 下 。 


1. 关键 词 检索 


关键 词 建立 倒 排 文件 索引 。 简 单 的 搜索 引擎 通 
常 基于 关键 词 检 索 相 关 文 档 ,该 技术 与 传统 的 信息 检 
索 使 用 的 技术 类 似 。 


词语 关联 分 析 
文本 聚 类 | 文本 分 类 


自然 语言 处 理 


2. 相似 检索 


图 11.1 文本 挖掘 功能 层次 
它 与 信息 检索 方法 中 的 相似 性 检索 方法 类 似 ,目的 是 找到 相似 内 容 的 文本 。 
3. 词语 关联 分 析 


它 不 仅 将 注意 力 放 在 孤立 词语 的 相同 或 相似 信息 上 ,而 且 聚 焦 在 词语 (包括 关键 词 ) 之 
间 的 关联 信息 分 析 上 。 从 而 避免 传统 的 信息 检索 技术 带 来 的 信息 不 精确 和 信息 量 过 大 等 
问题 。 

4. 文本 聚 类 和 文本 分 类 


利用 类 似 于 数据 挖掘 的 聚 类 和 分 类 技术 实现 文本 的 聚 类 和 分 类 。 将 文本 在 一 个 更 高 层 
次 上 进行 抽象 和 整理 。 


S. 自然 语言 处 理 
这 是 最 复杂 的 功能 , 它 希 望 揭示 自然 语言 处 理 技术 的 语义 ,进行 文本 语义 挖掘 。 
目前 文本 挖掘 主要 是 词语 关联 分 析 、 文 本 聚 类 和 文本 分 类 工作 。 

11.2.2 关联 分 析 


基于 关键 词 或 短语 的 关联 分 析 首 先 收集 经 常 一 起 出 现 的 关键 词 或 短语 ,然后 找 出 其 关 
联 或 相互 关系 。 
关联 分 析 首先 要 对 文本 数据 进行 词根 处 理 ,去 除非 用 词 等 预 处 理 , 然 后 调用 关联 挖掘 算 


法 。 在 文本 数据 库 中 ,每 一 文本 被 视 为 一 个 事务 ,文本 中 的 关键 词组 可 视 为 事务 中 的 一 组 事 
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务 项 。 文本 数据 库 可 表示 为 
{文本 编号 ， 关键 词 集 } 

这 样 ,文本 数据 库 中 关键 词 关联 挖掘 的 问题 就 变 成 事务 数据 库 中 事务 项 的 关联 挖掘 。 

注意 一 组 经 常 连续 出 现 或 紧密 相关 的 关键 词 可 形成 一 个 词 或 词组 。 关 联 控 气 有 助 于 找 
出 复合 关联 (compound association) , 即 领域 相关 的 词 或 词组 ,如 “科技 大 学 ,大 学 ”或 “总 统 ， 
克林顿 ”, 或 非 复合 关联 ,如 * 美 元 ,参股 ,交易 ,总 额 ,佣金 ,赌注 ,证券 "。 基 于 这 些 关联 的 控 
掘 称 为 “ 词 级 (term level) 关 联 挖掘 (相对 应 的 是 字 级 的 挖掘 )。 

词 的 识别 和 词组 关联 挖掘 在 文本 分 析 中 有 两 个 优点 : 词 和 词组 被 自动 标记 ,无 需 人 去 
标记 文本 ; 挖掘 算法 的 执行 时 间 和 无 意义 的 结果 将 极 大 减少 。 

利用 这 种 词 和 词组 的 识别 ,关联 分 析 挖 掘 可 以 用 于 找 出 词 或 关键 词 间 的 关联 。 一 些 用 
户 可 能 喜欢 从 给 定 关键 词 或 词组 中 找 出 关键 词 或 词组 之 间 的 关联 ,而 有 些 用 户 可 能 希望 找 
出 一 起 出 现 的 最 大 词 集 。 因 此 ,根据 用 户 挖掘 的 需要 ,可 以 使 用 关联 挖掘 或 最 大 模式 挖 气 
算法 。 


11.2.3 文本 聚 类 


文本 聚 类 是 一 种 典型 的 无 教师 的 机 器 学 习 问 题 。 目 前 的 文本 聚 类 方法 大 致 可 以 分 为 层 
次 聚 类 法 和 平面 划分 法 两 种 类 型 。 


1. 层次 聚 类 法 


对 于 给 定 的 文本 集合 D={d ,…,d;,…,d,) ,层次 聚 类 法 的 具体 过 程 如 下 

(1) 将 DD 中 的 每 个 文本 4d; 看 作 是 一 个 具有 单 成 员 的 类 c; 二 {di;} ,这 些 类 构成 了 DD 的 一 
个 聚 类 C 王 {ca sci cn); 

(2) 计算 C 中 每 对 类 (ci ,c) 之 间 的 相似 度 sim(ci ,cj); 

《3 选取 具有 最 大 相似 度 的 类 对 max sim(c ,cj) ,并 将 c; 和 cj; 合并 为 一 个 新 的 类 cx 一 


ciUc ,从 而 构成 了 DD 的 一 个 新 的 聚 类 C= {a cz ,cs-1); 

(4) 重复 上 述 步骤 ,直至 C 中 剩 下 一 个 类 为 止 。 

该 过 程 构造 出 一 棵 生成 树 ,其 中 包含 了 类 的 层次 信息 ,以 及 所 有 类 内 和 类 间 的 相似 度 。 
层次 聚 类 法 是 最 为 常用 的 聚 类 方法 , 它 能 够 生成 层次 化 的 嵌 套 类 , 且 准 确 度 较 高 。 但 是 ,在 
每 次 合并 时 ,需要 全 局 地 比较 所 有 类 之 间 的 相似 度 ,并 选择 出 最 佳 的 两 个 类 ,因此 运行 速度 
较 慢 ,不 适合 于 大 量 文本 的 集合 。 


2. 平面 划分 法 


平面 划分 法 与 层次 聚 类 法 的 区 别 在 于 , 它 将 文本 集合 水 平地 分 割 为 若干 个 类 , 而 不 是 生 
成 层次 化 的 艇 套 类 。 对 于 给 定 的 文本 集合 DD 二 {di,…,d;,…,d,) ,平面 划分 法 的 具体 过 程 
如 下 : 

(1) 确定 要 生成 的 类 的 数目 &; 

(2) 按照 某 种 原则 生成 上 个 聚 类 中 心 作 为 聚 类 的 种 子 S 一 人 ps) 


(3) 对 DD 中 的 每 个 文本 d;, 依 次 计算 它 与 各 个 种 子 s; 的 相似 度 sim(di ,sw ); 

(4) 选取 有 具有 最 大 相似 度 的 种 子 max sim(d;，s;) ,将 di; 归 入 以 5; 为 聚 类 中 心 的 类 cj, 从 
而 得 到 万 的 一 个 聚 类 C 一 {csc cs) 

(5) 重复 步骤 (2)、(3)、(4) 若 干 次 ,以 得 到 较为 稳定 的 聚 类 结果 。 该 方法 的 运行 速度 较 
快 ,但 是 必须 事先 确定 的 取 值 , 且 种 子 选取 的 好 坏 对 聚 类 结果 有 较 大 影响 。 


11.2.4 文本 分 类 


文本 分 类 是 一 种 重要 的 文本 挖掘 工作 ,由 于 存在 大 量 的 联机 文本 ,分 类 便于 对 文本 的 检 

如 何 进 行 自动 文本 分 类 ? 一 般 的 做 法 如 下 : 首先 ,把 一 组 预先 聚 类 过 的 文本 作为 训练 
集 。 然 后 对 训练 集 进 行 分 析 , 以 便 得 出 各 类 的 分 类 模式 。 这 种 分 类 模式 通常 需要 一 定 的 测 
试 过 程 ,不 断 地 细 化 ,用 这 些 导出 的 分 类 模式 对 其 他 联机 文本 加 以 分 类 。 

这 一 处 理 过 程 与 关系 数据 库 的 分 类 相似 ,但 还 是 存在 本 质 的 区 别 。 关 系数 据 库 是 结构 
化 的 : 每 个 元 组 定义 为 一 组 “属性 , 值 " 对 。 文 本 数据 库 则 不 是 结构 化 的 , 它 没有 “属性 , 值 ” 
对 的 结构 。 与 一 组 文本 相关 的 关键 词 并 不 能 用 一 组 属性 或 维 来 刻画 。 因 此 ,通常 面 对 关 系 
数据 库 的 分 类 方法 ,如 决策 树 分 析 , 并 不 适用 于 对 文本 数据 库 的 分 类 。 

对 文本 分 类 的 有 效 方法 是 基于 关联 的 分 类 , 它 基 于 一 组 关联 的 、 经 常 出 现 的 文本 模式 对 
文本 加 以 分 类 。 基 于 关联 的 分 类 方法 处 理 过 程 如 下 : 

(1) 通过 简单 的 信息 检索 技术 和 关联 分 析 技术 提出 关键 词 和 词组 。 

(2) 使 用 已 经 有 的 词类 ,或 基于 专家 知识 ,或 使 用 某 些 关键 词 分 类 方法 ,生成 关键 词 和 
词组 的 概念 层次 ,或 类 层次 结构 。 

(3) 词 关联 挖掘 方法 用 于 发 现 关联 词 , 它 可 以 最 大 化 区 分 一 类 文本 与 男 一 类 文本 。 这 
导致 了 对 每 一 类 文本 有 一 组 关联 规则 。 这 些 分 类 规则 可 以 基于 其 出 现 频率 加 以 排序 ,并 用 
于 对 新 的 文本 分 类 。 

基于 关联 的 文本 分 类 方法 已 经 证 明 是 有 效 的 。 对 Web 文本 分 类 可 以 利用 Web 页 面 的 
链接 信息 ,帮助 文本 类 的 识别 。 

文本 分 类 是 一 种 典型 的 有 教师 的 机 器 学 习 问 题 , 一 般 分 为 训练 和 分 类 两 个 阶段 ,具体 过 
程 如 下 。 


1. 训练 阶段 


(1) 定义 类 别 集合 C={c,…'ciy…'cn} ,这些 类 别 可 以 是 层次 式 的 ,也 可 以 是 并 列 
式 的 ; 

(2) 给 出 训练 文本 集合 S 二 {5 ，… ,5;，… ,5s,) ,每 个 训练 文本 s; 被 标 上 所 属 的 类 别 标 
识 ci 

(3) 统计 S 中 所 有 文本 的 特征 矢量 VCs ) ,确定 代表 C 中 每 个 类 别 的 特征 矢量 V(ci) 。 

2. 分 类 阶段 


(1) 对 于 测试 文本 集合 T= 二 {di ,…,d，….d,}) 中 的 每 个 待 分 类 文本 di .计算 其 特征 矢 
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量 V(di) 与 每 个 V(ci) 之 间 的 相似 度 sim(di ,ci); 
C2 选取 相似 度 最 大 的 一 个 类 别 max sim(d ci) 作 为 di 的 类 别 。 


有 时 也 可 以 为 di 指定 多 个 类 别 ,只 要 di 与 这 些 类 别 之 间 的 相似 度 超过 某 个 预定 的 阅 
值 。 如 果 di 与 所 有 类 别 的 相似 度 均 低 于 阅 值 ,那么 通常 将 该 文本 放 在 一 边 , 由 用 户 来 做 最 
终 决 定 。 如 果 这 种 情况 经 常 发 生 , 则 说 明 需 要 修改 预定 义 类 别 , 然 后 重新 进行 上 述 训 练 与 分 
类 过 程 。 在 计算 sim(di ,ci) 时 ,有 多 种 方法 可 供 选择 。 最 简单 的 方法 是 仅 考 虑 两 个 特征 矢 
量 中 所 包含 的 词 条 的 重 全 程度, 即 : 

n(di ,ci) 

no (di yci) 

其 中 ,nCdi,c) 是 V(di) 和 Vci) 具 有 的 相同 词 条 数目 ,no (di,ci) 是 VC(di) 和 Vlc) 具 有 的 所 
有 词 条 数目 。 最 常用 的 方法 是 考虑 两 个 特征 矢量 之 间 的 夹 角 余弦 。 


sim(di ,ci) = 


11.3 Web 挖掘 


目前 万 维 网 (WWW) 是 一 个 巨大 的 ,分 布 广泛 的 和 全 球 性 的 信息 服务 中 心 , 涉 及 新 闻 、 
广告 .消费 信息 、 金 融 管理 ,教育 ,政府 ,电子 商务 和 许多 其 他 信息 服务 。Web 还 包含 了 丰富 
和 动态 的 超 链接 信息 ,以 及 Web 页 面 的 访问 和 使 用 信息 ,这 为 数据 挖掘 提供 了 丰富 的 资源 。 
从 广义 上 讲 ，Web 信息 也 是 一 类 特别 的 文本 信息 ,因此 文本 挖掘 的 各 种 技术 也 适合 于 Web 
挖掘 ,但 是 由 于 Web 信息 自身 的 特点 ,文本 挖掘 和 Web 挖掘 应 该 区 别 对 待 。 


11.3.1 Web 挖掘 概述 


1. Web 信息 特点 


(1) Web 信息 特别 庞大 

Web 的 数据 量 目 前 以 几 百 TB 计算 ,而且 仍然 在 迅速 地 增长 。 许 多 机 构 和 社团 都 在 把 
各 自 大 量 的 可 访问 信息 置 于 网 上 。 

(2) Web 信息 非常 复杂 

Web 可 以 看 作 一 个 巨大 的 数字 图 书馆 。 然 而 ,这 一 图 书馆 中 的 大 量 文本 并 不 根据 任何 
有 关 排 列 次 序 加 以 组 织 。 它 没有 分 类 索引 ,更 没有 按 标题 .作者 封面 页 .目录 等 的 索引 。 对 
在 这 样 一 个 图 书馆 中 搜索 希望 得 到 的 信息 是 极 具 挑 战 性 的 。 

(3) Web 信息 是 动态 的 

Web 不 仅 以 极 快 的 速度 增长 ,而 且 其 信息 还 在 不 断 地 发 生 着 更 新 。 新 闻 、 上 股票 市 场 、 公 
司 广告 和 Web 服务 中 心 都 在 不 断 地 更 新 着 各 自 的 页 面 。 链接 信息 和 访问 记录 也 在 频繁 地 
更 新 之 中 。 

(4) Web 信息 使 用 者 复杂 

Web 面 对 的 是 一 个 广泛 的 形形色色 的 用 户 群体 。 目 前 因特网 上 连接 有 约 5000 万 台 工 
作 站 ,其 用 户 群 仍 在 不 断 地 扩展 中 。 各 个 用 户 可 以 有 不 同 的 背景 .兴趣 和 使 用 目的 。 

(5) Web 信息 中 的 “垃圾 ”非常 多 
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一 个 人 只 是 关心 Web 上 的 很 小 一 部 分 信息 , Web 所 包含 的 其 余 信息 对 用 户 来 说 是 不 
感 兴趣 的 ,而 且 会 淹没 所 希望 得 到 的 搜索 结果 。 


2. Web 挖掘 分 类 


可 以 将 Web 挖掘 一 般 地 定义 为 : 从 WWW 的 资源 和 行为 中 抽取 感 兴趣 的 有 用 的 模式 
和 隐 含 的 信息 。 一 般 地 ,Web 挖掘 可 分 为 3 类: Web 内 容 挖 气 (Web content mining) 、Web 
结构 挖掘 (Web structure mining) 和 Web 应 用 挖掘 (Web usage mining) 。 

图 11. 2 给 出 了 Web 挖掘 的 分 类 图 。 


Web 控 掘 


[we 内容 挖掘】 (Web 结构 挖 扎 】 (web 应 用 把 所 ] 


| | 
( 殉 面 内 容 挖 扬 】 [ 搜索 结果 挖 气 】 【使 用 模式 挖掘】 [ 个 性 使 用 跟踪 ) 


图 11.2 Web 挖掘 分 类 


(1) Web 内 容 挖掘 

内 容 挖掘 是 用 来 提取 文字 .图片 或 其 他 组 成 网 页 内 容 成 分 的 信息 和 知识 。 哪 个 站 点 卖 
汽车 ?哪些 页 面 是 中 文 的 ? 哪些 页 面 是 介绍 音乐 的 ,或 是 介绍 新 闻 的 ? 搜索 引擎 .智能 代理 
和 一 些 推荐 引擎 都 使 用 内 容 挖掘 来 帮助 客户 在 浩瀚 的 网 络 空间 中 寻找 所 需 的 内 容 。 

Web 内 容 挖 掘 有 两 种 策略 : 页 面 文本 内 容 挖掘 ; 对 搜索 引擎 的 查询 结果 进行 进一步 的 
处 理 , 得 到 更 为 精确 和 有 用 的 信息 。 

(2) Web 结构 挖掘 

结构 挖掘 是 用 来 提取 网 络 的 拓扑 信息 , 即 网 页 之 间 的 链接 信息 。 从 WWW 的 组 织 结构 
和 链接 关系 中 挖掘 知识 。 哪 些 页 面 被 其 他 页 面 所 链接 ? 哪些 页 面 指向 了 其 他 页 面 ? 哪些 页 
面 的 集合 构成 了 一 个 独立 的 整体 ? 可 以 对 页 面 进行 排序 ,发 现 重要 的 页 面 。 

(3) Web 应 用 挖掘 

应 用 挖掘 是 用 来 提取 关于 客户 如 何 运 用 浏览 器 浏览 和 使 用 页 面 链接 的 信息 。 从 Web 
的 访问 记录 中 抽取 感 兴趣 的 模式 。 例 如 ,客户 访问 了 哪些 页 面 ? 在 每 一 页 上 待 了 多 长 时 间 ? 
下 一 步 单 击 了 什么 ? 在 站 点 中 是 按照 怎样 的 访问 路 线 进入 和 退出 的 ? 

WWW 中 的 每 个 服务 器 都 保留 了 访问 日 志 (Web access log) ,记录 了 关于 用 户 访问 和 
交互 的 信息 。 分 析 这 些 数据 可 以 帮助 理解 用 户 的 行为 ,从 而 改进 站 点 的 结构 ,或 为 用 户 提供 
个 性 化 的 服务 。 

这 方面 的 研究 主要 有 两 个 方向 : 一 般 使 用 模式 的 挖掘 和 个 性 化 使 用 记录 的 追踪 。 一 般 
使 用 模式 的 挖掘 ,通过 分 析 使 用 记录 来 了 解 用 户 的 使 用 模式 和 倾向 ,以 改进 站 点 的 组 织 结 
构 ; 而 个 性 化 使 用 记录 的 追踪 则 倾向 于 分 析 单 个 用 户 的 偏好 ,其 目的 是 根据 不 同 用 户 的 访 
问 模式 ,为 每 个 用 户 提供 定制 的 站 点 。 

(4) 区 别 与 联系 
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因特网 是 由 许多 用 链接 联系 起 来 的 网 页 组 成 。 每 个 单独 的 页 面 都 由 多 种 成 分 组 成 , 例 
如 文本 、 图 片 及 指向 其 他 页 面 的 链接 等 ,网 络 服 务 器 提供 了 对 这 些 成 分 的 访问 权限 。 一 
页 是 由 一 些 称 为 框架 (frame) 的 结构 组 成 的 。 

进行 结构 挖掘 的 原材料 是 一 套 将 文档 联系 起 来 的 超级 链接 。 内 容 挖 掘 的 原材料 由 那些 
存储 于 数 以 百 万 的 文件 中 的 文本 组 成 ,这 些 文件 可 以 让 任何 客户 通过 内 置 HTML 和 XML 
标记 的 网 络 浏览 器 的 一 个 按钮 来 访问 。 内 容 挖掘 和 结构 挖掘 都 需要 一 种 相对 的 静态 的 网 
络 ,也 就 是 说 ,网 页 和 链接 要 像 戎 止 在 某 个 特定 的 时 刻 。 对 结构 挖掘 的 理想 的 表达 方式 是 用 
图 形 的 方式 (实际 上 是 有 向 图 ,因为 链接 总 是 在 一 个 方向 上 由 一 个 网 页 指向 男 一 个 )。 这 种 
理想 的 图 可 以 映射 整个 网 络 中 链接 所 有 文档 的 全 部 链接 。 内 容 挖掘 的 理想 表达 方式 是 一 
索引 。 这 个 理想 化 的 索引 链接 网 络 上 每 个 网 页 中 的 每 一 个 字符 串 ,单词 .短语 声音 和 图 像 。 

结构 挖掘 和 内 容 挖掘 都 不 需要 或 提供 有 关 客 户 行为 的 知识 ,结构 挖掘 提示 了 哪些 页 面 
通过 当前 页 可 以 几 步 内 到 达 , 但 并 不 关心 多 少 人 会 实际 用 到 这 条 通路 。 内 容 挖 掘 提示 了 网 
页 的 主题 ,但 并 不 关心 谁 会 真正 阅读 它 。 内 容 挖掘 可 以 用 于 找 出 所 有 关于 酒 类 的 网 页 ,而 结 
构 挖 掘 可 以 将 这 些 网 页 组 织 成 零售 站 点 的 聚 类 。 对 于 和 葡萄酒 的 购买 者 和 白酒 的 购买 者 的 区 
别 ,就 需要 另 一 种 类 型 的 Web 挖掘 , 即 第 三 种 称 为 应 用 挖掘 的 Web 挖掘, 它 主要 集中 于 挖 
掘 客户 的 行为 ,特别 是 随 着 时 间 的 变化 。 有 时 感 兴趣 的 时 间 片 很 短 ,例如 对 于 访问 者 在 一 次 
单独 的 会 话 中 在 一 个 站 点 中 的 访问 路 径 的 分 析 ; 在 其 他 时 候 时 间 片 又 会 比较 长 ,例如 对 于 
在 一 个 零售 站 点 长 期 注册 的 购买 者 的 购买 行为 的 分 析 。 

就 像 结构 挖掘 的 理想 图 或 内 容 挖 掘 的 理想 索引 一 样 , 可 以 想象 一 种 应 用 挖掘 的 理想 的 
数据 表现 形式 。 它 可 以 是 一 个 客户 配置 的 知识 库 , 并 且 可 以 不 断 地 更 新 网 络 上 每 一 个 客户 
的 配置 。 每 个 配置 都 会 记录 或 描述 某 个 单独 的 客户 与 网 络 的 交互 情况 ,包括 所 访问 的 站 点 、 
访问 的 路 线 、 提 出 的 问题 ,阅读 的 文档 和 购买 的 物品 等 。 

比 起 内 容 挖掘 的 网 络 索引 或 结构 挖掘 的 连接 图 ,应 用 挖掘 的 理想 表现 形式 实现 起 来 要 
难得 多 。 建 立 索 引 和 图 信息 可 以 自由 地 从 任何 访问 网 络 的 客户 那里 自由 获取 ,毕竟 使 文档 
和 链接 更 加 方便 应 用 是 网 络 技术 的 主要 目的 。 比 较 而 言 ,建立 的 客户 信息 是 分 散在 各 个 网 
络 日 志 、 应 用 服务 器 日 志 、 广 告 服务 器 日 志 、 商 业 服务 器 日 志 、 商 品 数 据 库 和 客户 数据 库 中 ， 
它们 分 属于 不 同 的 组 织 , 并 且 这 些 组 织 很 多 都 不 希望 分 享 他 们 拥有 的 信息 。 因 此 ,应 用 挖掘 
描述 只 能 限定 于 描述 访问 者 对 于 特定 的 站 点 的 访问 情况 ,或 同一 网 络 的 站 点 。 

结构 挖掘 ,应 用 挖掘 和 内 容 挖掘 都 是 Web 挖掘 的 有 价值 的 应 用 ,它们 完全 可 以 被 称 为 
“对 网 络 的 挖 气 ”。 


11.3.2 Web 内 容 挖 气 
内 容 挖掘 是 从 组 成 WWW 的 网 页 中 提取 信息 的 过 程 。 内 容 挖掘 最 广为人知 的 一 
用 是 搜索 引擎 ,没有 它 ,网络 将 变 得 一 无 是 处 。Web 内 容 挖掘 的 基本 技术 是 文本 挖掘。 
1. 信息 检索 


网 络 上 有 数 不 清 的 信息 、 留 言 , 还 有 彻头彻尾 的 垃圾 。 找 到 需要 的 信息 是 一 件 不 太 容 易 
的 搜索 工作 ,因为 对 于 大 多 数 的 主题 来 说 ,网 络 只 是 一 个 “ 贫 矿 ”。 如 果 在 网 络 上 的 所 有 文件 
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都 被 明确 地 标记 了 关键 词 或 是 可 以 清楚 地 描述 文章 内 容 的 元 数据 ,客户 可 以 向 图 书馆 管理 
员 那 样 使 用 搜索 引擎 ,搜索 起 来 就 不 需要 那么 复杂 的 算法 ,只 要 简单 的 查询 就 行 了 。 

网 页 正 从 HTML 向 XML 转变 ,这 样 一 来 ,可 被 利用 的 结构 化 元 数据 将 大 大 增加 (HT- 
ML 只 是 从 文档 显示 的 方式 这 一 角度 出 发 来 描述 文件 的 标准 ; XML 是 一 个 扩展 的 标准 , 它 
可 以 让 使 用 者 通过 约定 的 标记 来 表达 语义 上 的 信息 )。 现 在 大 多 数 文件 都 没有 元 数据 信息 ， 
必须 要 参照 内 容 。 数 据 挖掘 在 信息 检索 中 的 困难 在 于 创造 元 数据 去 完成 查询 ,比如 “关于 高 
血压 的 疗法 ”, 要 找到 相关 主题 的 网 页 (从 这 点 来 说 ,网 络 上 很 多 的 声音 图片 资源 都 不 能 被 
查询 到 。 因 为 现 有 的 “内 容 挖 掘 " 都 是 “文本 挖掘 *。 虽 然 对 于 我 们 来 说 ,区 别 不 同 的 圆舞曲 
的 调子 不同 的 图 片 是 很 容易 的 ,但 让 计算 机 从 中 间 提 取出 这 些 特点 的 算法 ,现在 并 没有 被 
广泛 地 使 用 )。 

信息 检索 的 目标 是 找到 想 要 找 的 ,而 不 理会 其 他 。 这 个 想法 可 以 由 研究 者 从 两 个 方面 
来 判断 该 查询 的 有 效 性 :“ 召 回 (recall)” 和 “精度 (precision)”。“ 精 度 ” 回 答 了 “在 返回 的 网 
页 中 ,正确 的 标题 的 比例 是 多 少 ” 的 问题 ;“ 召 回 " 则 是 回答 “在 所 有 正确 网 页 中 ,返回 了 多 
少 ” 的 问题 。 这 两 个 目标 在 某 种 程度 上 说 是 矛盾 的 。 一 个 搜索 引擎 针对 任何 一 个 请 求 返 回 
所 有 的 网 页 ,可 以 说 有 了 很 高 的 “召回 ”, 但 是 只 有 很 低 的 “精度 ”; 反之 ,只 返回 一 个 正确 主 
题 网 页 的 搜索 引擎 ,可 以 说 有 很 高 的 精度”, 但 “召回 "很 低 。 

“召回 "和 “精度 ”哪个 更 重要 ?要 看 查询 的 性 质 。 一 些 问题 可 以 在 查找 到 的 一 个 网 页 里 
轻易 地 得 到 回答 ,有 些 则 要 参照 很 多 网 页 。 

搜索 引擎 努力 地 提高 “精度 ”和 “召回 "数量 ,这 两 者 都 依靠 于 按 主 题 分 类 的 能 力 一 一 这 
也 是 一 个 数据 挖掘 中 十 分 吸引 人 的 挑战 。 


2. 基于 内 容 的 分 类 


分 类 是 数据 挖掘 中 常见 的 一 类 事情 。 市 场 活动 中 期 望 针对 目标 将 人 群 进行 分 类 ; 信用 
卡 交易 被 分 类 为 风险 种 类 ; 网 页 被 标记 可 以 区 别 它们 书写 语言 的 标签 。 在 所 有 的 例子 中 ， 
都 有 一 个 主要 的 种 类 列表 ,每 一 个 新 的 观察 材料 必须 被 分 到 一 个 合适 的 类 别 中 。 在 内 容 挖 
所 中 ,分 类 的 任务 通常 精简 成 为 网 页 关键 词 。 当 然 ,一 个 页 面 可 以 被 许多 关键 词 所 描述 ,这 
些 关键 词 可 以 被 分 配 不 同 的 可 信和 度 。 

一 个 有 用 的 内 容 分 类 是 决定 文档 以 什么 语言 写成 。 语 言 信 息 可 以 被 用 来 限制 搜索 结 
果 , 或 是 以 客户 可 以 读 懂 的 语言 返回 结果 。 

许多 数据 挖掘 技术 可 以 用 来 分 类 。 但 是 ,其 中 大 多 数 依赖 于 在 数据 库存 放 的 记录 的 数 
据 结构 ,在 这 样 的 记录 中 每 个 记录 都 有 相同 的 字段 。 大 多 数 文本 型 的 数据 都 是 非 结构 化 的 。 
在 “填空 ”形式 的 表单 中 ,虽然 内 容 都 是 由 客户 填写 的 ,但 是 每 个 填空 中 的 字符 都 是 存放 到 了 
数据 库 中 特定 的 字段 中 ,比如 * 姓 名 ?或 是 “职业 ”。 答 案 的 内 容 经 常 是 由 一 个 下 拉 框 给 出 。 
每 个 教师 都 知道 多 选 题 比 简 答 题 容易 打分 。 但 是 , 简 答题 更 能 考 出 学 生 的 水 平 。 在 内 容 挖 
掘 中 面 对 的 是 同样 的 问题 。 结 构 化 的 内 容 利用 标准 的 算法 容易 分 类 ,但 是 客户 真正 感 兴趣 
的 材料 却 是 非 结 构 化 的 文本 。 

“最 近邻 (& nearest neighbo k-NN)”, 这 种 方法 很 好 地 适用 于 在 网 页 中 利用 关键 词 进 
行 聚 类 。 在 ANN 方法 中 ,每 个 新 的 网 页 与 在 数据 库 中 预先 聚 类 的 例子 进行 对 比 ,新 网 页 将 
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出 现 和 一 些 现 有 的 网 页 非常 类 似 , 与 另 一 些 非常 不 同 的 情况 。 通 过 使 用 A-NN 可 以 对 相同 
的 网 页 进行 聚 类 。 相 似 度 越 高 , 聚 类 的 可 信 度 也 就 越 高 。 

两 个 网 页 类 似 具体 是 指 什么 ?” 这 需要 一 个 函数 ,给 出 两 个 网 页 ,返回 一 个 用 来 描述 它们 
有 多 少 相似 的 数值 .“ 类 似 ? 的 概念 可 以 类 比 * 距 离 ” 这 个 概念 。 在 物理 空间 中 ,物体 的 位 置 
是 由 它 在 某 一 轴线 上 相对 原点 的 距离 所 决定 的 。 若 知道 两 个 点 的 x、y、x 坐标 (或 经 度 、 纬 
度 、 高 度 ) ,就 可 以 通过 在 轴线 上 的 距离 用 简单 的 勾 股 定理 来 得 到 它们 之 间 的 距离 。 从 概念 
上 来 说 ,两 个 类 似 的 文本 之 间 的 距离 是 指 ,特定 的 一 些 维度 ,如 客观 物质 等级、 幽默 度 等 。 
依靠 上 下 文 ,不同 的 维度 可 以 有 不 同 的 权重 。 在 有 些 目 的 下 ,两 首 打 油 诗 虽 然 主 题 不 同 , 创 
作 语 言 不 同 , 也 可 能 是 “类 似 ? 的 。 在 另 一 些 上 下 文中 ,一 首 古老 的 船 歌 . 绿 色 和 平 组 织 的 筹 
款 信 都 会 被 认为 类 似 的 ,因为 它们 都 和 捕 鲸 有 关 。 

遗憾 的 是 ,这 种 确定 文本 差异 的 方法 难于 自动 实现 ,因为 它 依赖 于 对 内 容 的 理解 。 当 人 
们 都 被 要 求 去 比较 两 张 网 页 的 时 候 , 总 是 从 试 着 理解 内 容 开 始 ,计算 机 可 不 会 这 么 干 。 

研究 人 员 已 经 提出 了 用 于 测量 两 段 文 本 之 间 “ 距 离 ” 的 方法 , 即 依照 它们 所 含有 的 “ 字 ” 
本 身 而 不 需要 理解 这 个 字 的 含义 ,这 种 技术 可 以 用 数学 函数 表达 。 这 个 函数 充分 考虑 了 常 
用 字 的 数量 ,还 有 一 些 冷 俱 的 词汇 。 一 旦 有 了 可 以 应 用 于 文本 且 返 回 结果 的 函数 ,一 套 新 工 
具 的 出 现 就 可 以 说 有 眉目 了 。 

两 个 基于 相同 主题 ,用 同一 种 语言 (当然 用 的 是 一 套 词 汇 ) 的 网 页 ,可 以 说 比较 接近 。 一 
个 作者 的 两 部 作品 通常 也 是 比较 类 似 的 。 这 样 一 来 ,可 以 从 一 个 著名 作家 的 作品 中 选取 一 
段 和 一 个 有 争议 的 作家 的 作品 进行 比较 ,判断 出 这 段 作品 的 原作 到 底 是 谁 。 

这 种 公开 辩论 的 文本 型 挖掘 已 经 被 Vassar 大 学 的 Don Foster 教授 在 确定 有 争议 文件 
上 所 使 用 ,并 取得 了 引 人 注 目的 成 功 。 


3. 从 纯 文 本 中 提取 信息 


内 容 挖掘 的 一 个 目的 就 是 从 纯 文 本 中 得 到 有 用 的 信息 。 要 达到 这 样 的 程度 ,就 必须 真 
正 地 理解 文本 ,而 这 还 没有 达到 。 但 是 在 一 个 有 限制 的 范围 内 ,识别 出 一 些 特定 的 信息 是 可 
能 的 。 那些 追求 信息 提取 的 研究 者 的 一 个 希望 就 是 通过 将 纯 文本 转化 为 结构 化 的 数据 ,能 
够 直接 应 用 数据 挖掘 技术 ,从 而 作出 预测 。 这 种 从 非 结 构 化 数据 中 创建 结构 化 数据 的 过 程 
叫做 特征 抽取 。 

特征 抽取 在 网 络 上 的 应 用 是 作为 购物 的 一 个 辅助 工具 。 有 许多 这 样 的 服务 ,这 些 服务 
是 寻找 电子 商务 的 站 点 并 比较 相同 商品 的 价格 。 这 要 求 它 要 有 识别 出 两 个 站 点 正在 销售 同 
一 商品 (网 站 在 卖 着 某 些 东西 ) 的 能 力 。 

但 是 这 种 服务 的 工作 效果 并 不 是 很 好 。 我 们 认为 对 于 这 种 比较 购物 的 问题 的 解决 ,可 
能 通过 以 XML 标记 的 形式 向 网 站 中 添加 更 结构 化 的 内 容 比 通过 提高 从 非 结 构 化 的 文本 中 
提取 信息 的 技术 来 得 更 加 迅速 一 些 。 


11.3.3 ”Web 结构 挖掘 


结构 挖掘 可 以 告知 一 些 站 点 的 受 欢 迎 程度 和 它 与 其 他 站 点 的 距离 (通过 跳 转 次 数 来 判 
定 )。 进 一 步 ,可 以 通过 查看 一 个 单独 站 点 的 网 页 的 链接 情况 及 相互 链接 的 情况 来 学 习 其 内 
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网 络 的 总 体 结构 是 十 分 迷人 的 。 一 个 对 于 网 络 的 分 析 将 提示 出 人 类 分 为 数 个 不 同 的 语 
言 群落 ,并 且 任 何以 某 种 语言 写成 的 页 面 总 是 链接 与 它 相 同 语言 的 页 面 。 

万 维 网 (WWW) 是 一 个 有 向 图 G 二 (V,E),V 是 页 面 的 集合 ,FE 是 页 面 之 间 的 超 链接 集 
合 。 页 面 抽象 为 图 中 的 顶点 ,而 页 面 之 间 的 超 链 接 抽 象 为 图 中 的 有 向 边 。 顶 点 v 的 入 边 表 
示 对 vw 的 引用 ,出 边 表示 v 引用 了 其 他 的 页 面 。 所 以 Web 页 面 之 间 的 超 链接 揭示 了 Web 
结构 。 

每 个 网 页 是 这 个 图 的 一 个 结 点 ,每 个 链接 是 一 条 边 。 之 所 以 这 个 图 是 有 向 的 ,是 因为 存 
在 由 A 指向 B 的 链接 并 不 等 于 也 存在 B 指向 A 的 对 应 链接 。 一 个 站 点 A, 它 的 每 一 个 网 
页 都 包含 了 一 个 指向 主页 的 链接 。 大 部 分 的 链接 都 是 站 内 的 ,也 可 以 指向 站 外 的 网 页 。 


1. 网 页 的 引用 


在 “不 是 出 版 ,就 是 毁灭 的 学 术 世 界 里 ,引用 一 直 是 保持 成 绩 的 一 个 方法 。 仅 仅 是 出 版 
过 文章 是 不 够 的 ,重要 的 是 其 他 人 的 确 读 过 它们 并 且 觉 得 它们 有 用 。 一 篇 文章 的 有 用 与 否 
在 于 这 篇 文章 出 现在 其 他 文章 的 参考 书目 中 的 次 数 。 特 别 是 作者 ,会 因为 他 的 作品 的 重复 
引用 而 在 某 个 学 科 出 名 。 

原则 上 讲 ,网 络 这 种 全 球 性 结构 也 以 同样 的 方式 使 网 站 保持 成 绩 。 通 向 这 个 站 点 链接 
越 多 , 它 就 一 定 越 重要 。 实 际 上 对 于 站 点 管理 者 来 讲 , 得 到 一 个 关于 所 有 链接 的 准确 视图 是 
非常 困难 的 ,因为 网 络 的 结构 绝 不 是 静态 的 。 被 各 大 搜索 站 点 用 于 建立 索引 的 “网 络 候 行 
者 "(Web crawler) 是 最 易 得 到 这 种 信息 的 来 源 。 

如 果 没 有 人 点 击 它们 ,静态 链接 就 显得 不 是 特别 有 用 ,就 像 一 个 科学 家 ,如 果 没 有 人 读 
他 的 著作 ,他 就 不 是 权威 一 样 。 从 对 www. data-miners. com 网 络 日 志 的 分 析 中 , 令 人 惊讶 
地 得 知 ,几乎 没有 人 是 从 其 他 站 点 的 静态 链接 到 这 里 来 的 。 有 47% 的 浏览 者 是 直接 在 浏览 
器 中 键入 的 网 址 ,或 是 收藏 有 该 站 点 .或 是 将 www. data-miners. com 作为 它们 的 默认 开始 
页 面 。 

当 指引 人 们 去 浏览 数据 挖掘 网 站 的 时 候 , 并 不 是 所 有 的 搜索 引擎 都 是 平等 的 。 非 常 明 
显 , 超 过 33% 的 通 向 该 站 点 的 网 络 搜索 都 是 来 自 于 Google 的 。 相 反 地 ,仅仅 有 3% 的 客户 
是 通过 AltaVista 这 个 搜索 引擎 找到 的 。 

为 什么 是 Google 能 够 更 好 地 指引 人 们 来 到 Data-Miners 公司 ? 

答案 是 ,与 不 同 的 搜索 引擎 决定 什么 页 面 能 够 吸引 读者 的 方式 有 关 。AltaVista 是 基于 
内 容 控 掘 的 ,而 Google 同时 还 使 用 了 结构 挖掘 。 总 之 , 当 一 个 客户 输入 要 搜索 的 字 串 “数据 
挖掘 查询 ”,AltaVista 将 很 高 兴 地 返回 任何 谈 到 数据 挖掘 查询 的 页 面 ,而 Google 则 根据 对 
于 有 关 该 题目 链接 的 页 面 的 结构 分 析 来 返回 它 认 为 是 权威 的 页 面 。 

网 页 引用 的 Page-rank 方法 是 Brin 和 Page 于 1998 年 提出 的 一 种 方法 。 假 设 要 搜索 某 
一 给 定 话题 的 Web 页 面 ,例如 金融 投资 方面 的 页 面 。 这 时 除了 希望 得 到 与 之 相关 的 Web 
页 面 外 ,还 希望 所 检索 到 的 页 面具 有 较 高 质量 和 权威 性 。 权 威 性 (authority) 可 由 Web 页 面 
链接 来 反映 。Web 不 仅 由 页 面 组 成 ,而 且 还 包含 了 从 一 个 页 面 指向 另 一 个 页 面 的 超 链 接 。 
超 链接 包含 了 大 量 人 类 潜在 的 语义 , 它 有 助 于 自动 分 析出 权威 性 语义 。 当 一 个 Web 页 面 的 
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作者 建立 指向 另 一 个 页 面 的 指针 时 ,可 以 看 作 是 作者 对 另 一 页 面 的 注解 。 把 对 一 个 页 面 的 
来 自 不 同 作 者 的 注解 收集 起 来 ,就 可 以 用 来 反映 该 页 面 的 重要 性 ,并 可 以 很 自然 地 用 于 
Web 页 面 权 威 性 的 发 现 。 可 见 , 大 量 的 Web 链接 信息 提供 了 丰富 的 关于 Web 内 容 相 关 性 、 
质量 和 结构 方面 的 信息 ,这 对 Web 挖掘 是 可 以 利用 的 一 个 重要 资源 。 

Page-rank 的 基本 思想 是 : 

(1) 一 个 页 面 被 多 次 引用 , 则 这 个 页 面 很 可 能 是 重要 的 ; 

(2) 一 个 页 面 尽管 没有 被 多 次 引用 ,但 被 一 个 重要 页 面 引用 , 则 这 个 页 面 很 可 能 是 重 
要 的 ; 

(3) 一 个 页 面 的 重要 性 被 均 分 并 被 传递 到 它 所 引用 的 页 面 。 


2. 中 枢 和 权威 


要 在 庞大 的 满足 条 件 的 文档 中 找到 最 有 趣 的 或 最 权威 的 文档 是 非常 困难 的 。 

康 奈 尔 大 学 的 Jon Kleinberg 提出 了 一 种 被 广泛 采用 的 技术 来 解决 这 个 问题 。 他 的 想 
法 是 利用 这 样 的 事实 ,在 建立 从 一 个 站 点 到 另 一 个 站 点 的 链接 时 ,网 站 的 管理 者 将 会 对 将 要 
建立 链接 的 网 站 的 价值 作 一 个 判断 。 每 个 到 站 点 的 链接 对 这 个 站 点 都 是 有 意义 的 。 久 而 久 
之 ,那些 决定 给 同一 目标 站 点 提供 链接 的 站 点 能 够 证 实 目标 的 权威 性 。 进 一 步 , 所 要 链接 的 
站 点 的 可 靠 性 也 可 以 通过 它们 链接 到 的 站 点 的 权威 性 来 判断 。 一 个 拥有 许多 其 他 好 站 点 推 
荐 的 站 点 可 以 用 来 决定 另 一 个 站 点 的 权威 性 。 

Kleinberg 提出 一 个 链接 到 许多 权威 站 点 的 站 点 叫做 中 枢 (hub) ;被 许多 中 枢 链 接 的 站 
点 叫做 权威 (authority) 。 这 两 个 概念 放 在 一 起 可 以 辨别 出 权威 和 大 众 化 站 点 (如 Yahoo) 之 
间 的 区 别 。 一 种 寻找 权威 的 结构 化 的 方法 就 是 ,用 其 他 的 站 点 到 该 站 点 的 链接 数 来 将 它们 
分 级 。 要 给 站 点 分 级 ,不 要 用 指向 它们 的 链接 的 总 数 , 而 是 用 指向 它们 的 标题 相关 的 中 枢 的 
数量 来 分 级 。 

结构 挖掘 是 为 提取 信息 而 对 网 站 的 链接 进行 分 析 的 过 程 ,对 单一 网 站 局 部 结构 的 分 析 ， 
对 于 理解 此 网 站 的 创办 的 目的 和 设计 很 有 帮助 。 对 全 局 结构 的 分 析 是 一 种 将 一 个 网 站 分 解 
成 多 个 紧密 联系 的 子 网 站 的 途径 。 运 用 全 局 结构 挖掘 ,有 可 能 把 网 页 归 类 为 中 枢 ( 到 许多 其 
他 网 页 的 很 好 的 跳板 网 页 ) 和 权威 (许多 网 页 设计 师 都 觉得 值得 链接 到 的 网 页 ) 。 

hub/authority 方法 是 Kleinberg 于 1998 年 提出 的 。 基 于 商业 或 竞争 的 考虑 ,很 少 有 
Web 页 面 会 指向 其 竞争 对 手 页 面 。 例 如 ,可 口 可 乐 不 会 链接 到 其 竞争 对 手 百 事 可 乐 的 Web 
页 面 。 这 些 现象 使 Web 链接 结构 存在 一 些 局 限 性 。 

为 此 人 们 提出 了 另外 一 种 重要 的 Web 页 面 , 即 中 枢 页 面 。 一 个 hub 是 指 一 个 或 多 个 
Web 页 面 , 它 提供 了 指向 权威 页 面 的 链接 集合 。hub 页 面 本 身 可 能 并 不 突出 ,或 者 说 可 能 
没有 几 个 链接 指向 它们 。 但 是 ,hub 页 面 却 提供 了 指向 某 个 公共 话题 最 为 突出 的 站 点 链接 。 
此 类 页 面 可 以 是 主页 上 的 推荐 链接 列表 ,例如 一 门 课程 主页 上 的 推荐 参考 文献 站 点 ,或 商业 
站 点 上 的 相关 信息 站 点 。hub 页 面 起 到 了 隐 含 说 明 某 权威 页 面 的 作用 。 通常, 好 的 hub 是 
指向 许多 好 的 权威 的 页 面 ; 好 的 权威 是 指 由 许多 好 的 hub 所 指向 的 页 面 。 这 种 hub 与 au- 
thority 之 间 的 相互 作用 ,可 用 于 权威 页 面 的 挖掘 和 高 质量 Web 结构 及 资源 的 自动 发 现 。 
这 就 是 hub/authority 方法 的 基本 思想 。 
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3. 导航 页 


导航 页 的 存在 主要 为 了 链接 其 他 页 面 。 客 户 不 必 在 导航 页 上 花费 太 多 的 时 间 , 却 会 频 
繁 地 到 这 个 导航 页 面 上 。 对 客户 来 说 ,导航 页 能 够 很 容易 地 找到 客户 想 要 找 的 网 页 。 通 过 
比较 从 入 口 到 目标 网 页 所 要 求 的 点 击 数 和 浏览 者 平均 的 点 击 数 , 会 得 到 一 些 关 于 怎样 设计 
好 的 网 络 站 点 和 怎样 链接 网 页 的 建议 。 


4. 目标 页 


浏览 者 通常 花费 大 量 的 时 间 在 目标 页 上 。 这 一 网 页 实际 上 给 浏览 者 提供 所 要 查找 的 信 
息 、 娱 乐 和 商品 。 总 之 ,目标 页 给 浏览 者 提供 所 有 的 内 容 。 

目标 页 一 般 是 固定 的 。 当 浏览 者 在 一 个 目标 页 上 花费 了 大 量 的 时 间 时 ,希望 这 是 因为 
找到 了 他 们 所 需要 的 东西 。 当 然 ,并 不 是 所 有 的 浏览 者 都 是 这 样 的 。 或 许 他 们 有 许多 的 疑 
惑 ,或 者 要 求 查 到 更 多 的 东西 ,要 么 由 于 其 他 的 原因 使 他 们 的 输入 速度 非常 慢 , 从 而 导致 了 
他 们 在 此 网 页 花费 了 大 量 的 时 间 。 通 常 仔细 分 析 登 录 数 据 ,可 以 得 出 他 们 的 不 同 之 处 。 要 
指出 的 重要 的 一 点 是 : 如 果 没 有 应 用 数据 的 配合 ,一 个 网 站 的 静态 结构 是 没有 很 大 用 处 的 。 
应 用 数据 允许 比较 这 个 网 站 的 结构 ,因为 它 反映 了 设计 者 的 思想 ,也 就 是 说 反映 的 是 这 个 网 
站 及 其 实际 的 行为 数据 该 如 何 使 用 。 


5. 形成 功能 


某 个 网 站 的 局 部 结构 很 大 程度 上 依赖 于 它 的 用 途 。 网 站 有 许多 不 同 的 模型 。 一 个 零售 
站 点 可 能 都 是 以 同样 方式 列 出 商品 页 面 ,并 且 建 立 了 一 个 存储 在 关系 数据 库 中 的 商品 和 价 
格 的 桥梁 。 有 一 些 会 模拟 离线 资源 ,如 报纸 或 是 杂志 。 其 他 的 则 包含 可 构建 的 会 话 , 这 些 会 
话 能 够 定制 并 能 以 多 种 方式 排列 ,满足 特殊 客户 的 需求 ,这 种 站 点 诸如 yahoo. com, 甚 至 一 
个 非常 简单 的 网 站 ,如 www. data-miners. com, 都 是 由 它 的 目标 来 决定 结构 。 该 站 点 的 基 
本 目标 是 : 

(1) 让 寻找 数据 挖掘 顾问 的 人 们 找到 站 点 并 联系 站 点 。 

(2) 允许 搜索 数据 挖掘 教程 和 研讨 会 的 人 注册 成 为 站 点 的 会 员 。 

(3) 让 搜索 有 关 数 据 挖掘 的 书籍 的 人 们 能 够 购买 站 点 的 书 。 

这 意味 着 可 通过 一 个 单 击 从 首页 到 达 联 系 信息 、 当 前 课程 表 、 课 程 注册 链接 和 和 售 书 链 
接 。 想 要 实现 更 多 目标 的 站 点 的 结构 就 会 更 为 复杂 ,但 是 基本 的 原则 仍然 是 使 得 浏览 者 容 
易 做 想 让 他 们 做 的 事情 。 


11.3.4 ”Web 应 用 挖掘 


对 于 一 个 链接 或 网 页 来 说 ,一 个 有 用 的 属性 是 它 的 大 众 化 程度 ,这 是 用 在 给 定 的 时 间 内 
访问 它 的 客户 的 数量 来 衡量 的 。 在 大 多 数 情况 下 , 当 考虑 的 是 对 客户 的 理解 时 ,应 用 模式 就 
是 非常 关键 的 。 应 用 模式 可 以 从 多 个 层次 检测 和 挖掘 到 ,从 单个 客户 在 一 次 对 话 中 的 一 系 
列 的 单 击 到 跨越 了 几 个 月 或 数 年 的 客户 群 的 购买 模式 中 。 通 常 , 长 期 以 来 收集 的 信息 可 以 
组 成 一 个 特性 文件 ,依次 提供 当前 客户 的 快照 。 这 些 特性 文件 可 以 被 用 来 产生 建议 和 个 性 
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化 服务 。 
应 用 挖掘 有 很 多 应 用 ,从 提高 网 站 的 设计 到 改善 客户 关系 的 管理 。 随 着 人 们 需求 的 不 
断 增长 ,所 要 求 的 数据 资源 也 更 加 丰富 多 变 。 


1. 点 击 流 分 析 


用 于 Web 挖掘 有 效 的 最 简单 的 数据 就 是 点 击 流 一 一 由 一 个 站 点 的 网 络 服务 器 来 接受 
的 网 页 请 求 。 点 击 流 的 定义 是 一 个 网 站 浏览 者 通过 点 击 链接 所 明确 要 求 的 一 系列 文件 。 

点 击 流 数据 类 似 于 超市 的 扫描 数据 。 在 超市 ,每 个 售 货 系统 为 每 个 扫描 过 的 商品 建立 
一 个 记录 。 这 些 记录 在 进行 数据 挖掘 之 前 都 是 列 入 市 场 购物 车 的 。 一 旦 市 场 购物 车 经 过 鉴 
定 , 就 能 够 提出 商品 分 级 的 问题 ,如 哪些 商品 放 在 一 起 卖 比较 好 。 要 想 从 商品 级 转 到 客户 级 
问题 ,市 场 购物 车 必须 在 一 定 程度 上 与 购物 者 联系 起 来 ,这 样 才能 使 模式 和 行为 被 检测 
出 来 。 

在 网 络 世界 里 存在 着 类 似 的 情况 。 在 最 低层 次 中 ,记录 了 所 有 客户 的 浏览 器 所 请 求 的 
JPEG 和 HTML 文件 。 这 些 点 (hits) 必 须 归 入 页 面 视图 (page views) 中 。 在 找 出 一 个 链接 
客户 和 会 话 的 方法 之 前 是 没 办 法 得 知 各 个 客户 的 行为 的 。 

从 页 面 视图 层 移 向 单一 的 客户 层 ,尽管 得 到 很 少 的 数据 ,但 这 却 更 为 有 趣 。 最 有 趣 的 分 
析 是 在 单个 客户 层 追 寻 的 行为 达 数 个 星期 甚至 数 月 ,或 是 在 会 话 层 的 一 次 浏览 的 过 程 中 追 
寻 客 户 的 行为 。 每 个 单一 的 客户 可 能 会 有 很 多 对 话 。 每 个 对 话 可 能 会 有 许多 的 页 面 视图 ， 
并 且 每 个 页 面 视 图 都 可 能 被 网 络 日 志 记录 为 许多 的 点 。 


2. 网 络 日 志 


点 击 流 的 分 析 始 于 网 络 日 志 。 虽 然 一 个 网 络 站 点 看 起 来 似乎 是 由 许多 网 页 组 成 的 ,但 
实际 上 网 站 注册 所 遵循 的 还 有 点 不 同 。 也 就 是 说 ,个 别 细节 需 受 网 络 浏览 器 控制 ,有 所 不 同 
的 理由 是 : 作为 一 个 独立 的 网 页 ,浏览 窗口 是 一 种 既 普 通 又 复杂 的 事物 ,包括 各 种 会 话 框 ， 
每 一 个 会 话 框 都 会 显示 内 容 不 同 的 超 文本 标记 语言 标准 文档 ,每 一 个 这 种 文档 又 依次 含有 
代表 图 片 文档 的 附注 内 容 。 为 了 便于 在 浏览 窗口 中 制作 网 页 ,每 一 个 这 样 的 文档 都 受 服务 
器 控制 ,以便 及 时 把 请 求 有 效 地 传送 给 服务 器 。 

当 客户 单 击 单独 的 网 页 时 ,为 了 一 个 组 成 对 象 ,单个 的 请 求 会 转 为 多 个 单 击 ,因为 它 是 
由 不 同 的 服务 器 来 操作 的 ,这 些 单 击 也 将 通过 各 种 指标 予以 记录 ,因为 服务 器 已 获得 成 二 上 
万 个 与 某 个 特殊 的 网 页 视图 有 关 的 其 他 浏览 器 的 单 击 。 


3. 应 用 日 志 


要 使 得 一 个 网 站 浏览 者 全 面 地 了 解 ,必须 要 求 从 应 用 服务 器 上 得 到 的 数据 是 完整 的 点 
击 流 数 据 。 

在 一 个 现代 电子 商务 的 体系 结构 中 ,知道 什么 网 址 被 请 求 并 不 能 说 明 什么 问题 ,因为 网 
页 的 内 容 都 是 由 一 个 应 用 服务 器 通过 空白 页 建立 的 。 总 而 言 之 ,同样 的 URL 地 址 在 不 同 
的 时 刻 可 能 就 代表 了 不 同 的 含义 。 应 用 服务 器 有 详细 的 关于 什么 被 请 求 和 它 代表 了 什么 的 
信息 。 
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只 有 应 用 日 志 知道 什么 时 候 一 些 商 品 放 在 商店 里 ,什么 时 候 该 拿 走 ,什么 时 候 客 户 进 
来 ,什么 时 候 客户 出 去 。 这 是 商品 制造 商 和 销售 商 感 兴趣 ,而 不 是 网 站 设计 者 感 兴 趣 的 客户 
行为 。 这 也 是 来 自 网 络 的 数据 和 来 自 其 他 渠道 的 数据 ,如 商店 .电话 销售 中 心 等 。 


4. 日 志 挖掘 的 基本 流程 


对 Web 访问 日 志 (Web log) 进 行 分 析 和 挖掘 要 经 过 一 系列 的 工作 。 

基本 的 流程 包括 如 下 步骤 ， 

(1) 首先 要 对 Web log 进行 清洗 .过 滤 和 转换 ,从 中 抽取 感 兴趣 的 数据 。 

(2) 将 资源 的 类 型 .资源 的 大 小 ,请 求 的 时 间 , 在 资源 上 停留 的 时 间 、 请 求 者 的 Internet 
域名 .用户 、 服 务 器 状态 作为 数据 立方 体 (data cube) 的 维 变 量 ,将 对 页 面 和 文件 请 求 次 数 、 
来 自 不 同 Internet 域 请 求 次 数 、 事 件 , 会 话 、 错 误 次 数 分 别 作 为 在 这 些 维 变量 下 的 度量 变量 
建立 数据 立方 体 (data cube) 。 通 过 对 data cube 的 切 块 .切片 分 析 可 以 回答 : 哪些 成 分 或 特 
色 被 经 常 或 偶尔 使 用 ,网 络 流量 随时 间 的 变化 规律 (按时 .日 月 等 ), 用 户 在 不 同 Internet 域 
的 分 布 情况 ,来 自 不 同 地 区 的 用 户 在 存 取 方式 上 是 否 有 差异 。 

(3) 利用 成 熟 的 数据 挖掘 技术 (如 特征 提取 ,分 类 、 关 联 、 预 测 、 时 间 序 列 分 析 、 趋 势 分 
析 ) 进 行 Web 流量 分 析 、 典 型 的 事件 序列 和 用 户 行为 模式 分 析 、 事 务 分 析 , 可 以 回答 成 分 和 
特色 在 哪些 上 下 文中 被 使 用 ; 什么 是 典型 的 事件 序列 ; 在 用 户 中 有 共同 的 行为 模式 是 什 
么 ; 不 同 用 户 群 在 使 用 和 行为 上 有 什么 差异 ; 用 户 的 行为 是 否 随时 间 变 化 ,以 及 怎么 变化 
等 问题 。 

通过 分 析 Web 访问 日 志 能 帮助 理解 用 户 的 行为 和 Web 结构 ,因此 ,可 以 改进 Web 页 
面 的 设计 和 Web 应 用 程序 ,发 现 潜在 的 电子 商务 客户 。 

OLAP 从 不 同 的 视角 不同 的 概念 层次 提供 了 数据 视图 ,而 Web log 数据 挖掘 提供 了 深 
层次 的 报告 , 像 时 间 序 列 分 析 、 相 关 、 分 类 等 。 通 过 使 用 这 类 Web log 文件 ,可 以 进行 一 些 研 
究 工作 ,如 系统 性 能 分 析 , 通 过 Web 缓存 改进 系统 设计 、Web 页 面 预 取 、Web 页 面 交换 
(swapping); 认识 Web 信息 访问 的 本 质 ; 理解 用 户 的 反映 和 动机 。 例 如 ,有 些 研究 提出 了 
可 适应 站 点 (adaptive site) 的 概念 , 即 可 以 通过 用 户 访 问 模式 的 学 习 , 改 进 其 自身 的 Web 

Web log 分 析 还 有 助 于 建立 针对 个 体 的 个 性 化 Web 服务 。 由 于 Web log 数据 提供 了 
用 户 访问 Web 页 面 的 信息 ,因此 Web log 信息 可 以 与 Web 内 容 挖掘 和 Web 结构 挖掘 集成 
起 来 ,用 于 Web 页 面 的 等 级 划分 .Web 文本 的 分 类 和 多 层次 Web 信息 库 的 构造 。 


5. 应 用 挖掘 提高 网 站 可 用 性 


通常 在 一 个 网 站 挖掘 使 用 数据 的 原因 在 于 要 提高 这 个 网 站 的 可 用 性 。 分 析 的 第 一 步 是 
收集 客户 的 使 用 途径 。 每 一 个 客户 的 会 话 都 是 一 系列 的 网 页 要 求 。 一 般 来 说 ,每 个 商店 每 
次 的 订货 之 间 都 有 着 特定 的 目的 性 。 这 些 网 页 请 求 的 联系 可 以 由 分 析 商 店 业务 之 间 的 联系 
而 得 到 。 这 些 联系 暗示 这 些 网 页 之 间 要 添加 一 些 附 加 链接 。 如 果 在 一 个 会 话 中 经 常 被 访问 
的 两 个 页 面 彼 此 之 间 没 有 链接 ,如 果 加 上 链接 ,客户 会 感到 更 加 方便 。 在 一 次 网 络 购物 中 ， 
站 点 并 不 关心 客户 以 怎么 样 的 顺序 买 东西 。 在 网 站 访问 时 ,页 面 访问 的 顺序 非常 重要 ,以 至 
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于 站 点 要 把 这 个 顺序 作为 一 个 整体 来 研究 。 当 关联 规则 应 用 到 这 个 序列 时 ,就 可 以 得 到 这 
次 业务 的 顺序 规则 ,比如 先 到 主页 ,再 找 工作 列表 ,然后 到 联系 方式 。 

这 样 的 会 话 可 以 依照 不 同情 况 分 为 不 同 的 类 。 这 些 类 代表 了 不 同 的 客户 ,比如 老 客 户 
和 新 客户 ; 浏览 的 客户 和 想 购 物 的 客户 。 不 同 的 访问 者 访问 同一 个 网 站 的 目的 是 不 一 样 
的 ,比如 ,访问 一 个 零售 商 网 站 的 人 的 目的 可 能 是 购物 或 寻找 就 业 机 会 。 

所 有 这 些 都 应 该 轻松 完成 ,但 是 任何 尝试 过 的 人 都 知道 情况 并 不 是 如 此 。 应 用 挖掘 可 
以 帮助 确定 使 用 模式 并 且 对 使 用 提出 改进 的 建议 。 比 如 ,一 个 报社 发 现 那些 关心 报纸 递送 
业务 的 客户 要 浏览 7 一 8 个 网 页 才能 完成 订阅 递送 ,通过 减少 页 面 , 减 至 3 个 ,其 结果 是 成 倍 
地 增加 了 那些 从 网 络 订阅 报纸 递送 的 客户 的 数量 。 


习 题 


. 文本 挖掘 的 概念 是 什么 ? 

. 文本 挖掘 与 数据 挖掘 有 什么 不 同 ? 

. 文本 挖掘 的 主要 任务 是 什么 ? 

. 文本 特征 包含 什么 内 容 ? 

.如 何 形式 化 表示 文本 特征 ? 

. 文本 特征 提取 的 基本 算法 过 程 是 什么 ? 

. 说 明文 本 挖掘 的 功能 层次 内 容 。 

. 说 明文 本 关联 分 析 的 基本 思想 。 

. 文本 的 层次 聚 类 法 的 基本 过 程 是 什么 ? 

. 说 明 平面 划分 法 的 基本 思想 , 它 与 层次 聚 类 法 的 区 别 在 什么 地 方 ? 
. 说 明文 本 关联 分 析 方 法 的 处 理 过 程 。 

. Web 信息 有 什么 特点 ? 

. Web 挖掘 与 文本 挖掘 有 什么 区 别 和 联系 ? 

. 说 明 Web 挖掘 的 分 类 。 

.Web 内容 挖掘 的 含义 是 什么 ? 

.Web 结构 挖掘 的 含义 是 什么 ? 

.Web 应 用 挖掘 的 含义 是 什么 ? 

.“ 召 回 ” 与 “精度 ”的 含义 是 什么 ”它们 之 间 的 关系 是 什么 ? 
. 什么 是 基于 内 容 的 分 类 ? 

. 如 何 从 纯 文 本 中 提取 信息 ? 

. 页面 引用 的 Page-rank 方法 的 基本 思想 是 什么 ? 

. 什么 是 中 枢 站 点 和 权威 站 点 ? 

.hub/authority 方法 的 基本 思想 是 什么 ? 

. 点 击 流 的 定义 是 什么 ? 点 击 流 数据 中 包含 哪些 内 容 ? 
. 网 络 日 志 挖掘 的 基本 流程 是 什么 ? 
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12.1 综合 决策 支持 系统 


12.1.1 从 管理 科学 到 决策 支持 系统 


1. 管理 科学 


管理 科学 (management science，MS) 的 传统 名 字 叫 运筹 学 (operations research,OR) 。 

1940 年 9 月 英国 成 立 了 由 物理 学 家 P. M. S. 布 菜 克 特 领 导 的 第 一 个 运筹 学 小 组 。 在 第 
二 次 世界 大 战 中 ,为 开展 反潜 艇 的 侦察 ,以 及 组 织 有 效 的 对 敌 友 炸 等 方面 做 了 大 量 的 研究 。 
1947 年 G. B. 丹 齐 克 提出 线性 规划 及 其 通用 解法 一 一 单纯 形 法 。20 世纪 50 年 代 末 ,美国 大 
企业 在 经 营 管理 中 大 量 应 用 运筹 学 ,开始 时 主要 用 于 制定 生产 计划 ,后 来 在 物资 储备 .资源 
分 配 .设备 更 新 ,任务 分 派 等 方面 应 用 和 发 展 了 许多 新 的 方法 和 模型 。 这 些 研 究 推动 了 管理 
科学 的 发 展 ,为 决策 提供 科学 的 依据 。 

管理 科学 是 对 管理 问题 用 定量 分 析 方 法 ,建立 数学 模型 ,通过 求解 计算 ,达到 辅助 管理 
决策 的 一 门 学 科 。 管 理科 学 是 用 数学 模型 方法 研究 经 济 .国防 等 部 门 在 环境 的 约束 条 件 下 ， 
合理 调配 人 力 ,物力 、 财 力 等 资源 ,通过 模型 的 有 效 运 算 , 来 预测 发 展 趋势 ,制定 行动 规划 或 
优选 可 行 方案 。 

模型 是 对 客观 规律 的 一 般 描述 ,人 们 通过 对 模型 的 认识 来 增强 对 付 复杂 的 大 规模 问题 
的 处 理 能 力 , 使 人 们 尽 可 能 地 按 客观 规律 办 事 ,不 犯错 误 , 取 得 预期 的 效果 。 例 如 ,人 口 模型 
反映 了 人 口 发 展 的 规律 以 及 主要 影响 因素 。 通 过 人 口 模型 的 计算 ,为 国家 制定 政策 .控制 人 
口 的 出 生 率 提供 辅助 决策 建议 。 


2. 决策 支持 系统 


管理 科学 与 运筹 学 是 运用 模型 辅助 决策 ,体现 在 单 模型 辅助 决策 上 ,模型 所 需要 的 数据 
在 计算 机 中 以 文件 形式 存储 。 随 着 新 技术 的 发 展 ,所 需要 解决 的 问题 会 愈 来 愈 复杂 ,所 涉及 
的 模型 愈 来 愈 多 ,不 仅 是 几 个 而 是 十 多 个 , 几 十 个 ,以 至 上 百 个 模型 来 解决 一 个 大 问题 。 这 
样 ,对 多 模型 辅助 决策 问题 ,在 决策 支持 系统 出 现 之 前 是 靠 人 来 实现 模型 间 的 联合 和 协调 。 
决策 支持 系统 的 出 现 是 要 解决 由 计算 机 自动 组 织 和 协调 多 模型 的 运行 及 数据 库 中 大 量 数 据 
的 存 取 和 处 理 , 达 到 更 高 层次 的 辅助 决策 能 力 。 决 策 支 持 系 统 的 特点 就 是 增加 模型 库 和 模 
型 库 管理 系统 ,把 众多 的 模型 有 效 地 组 织 和 存储 起 来 ,并 且 建 立 了 模型 库 和 数据 库 的 有 机 结 
合 。 这 种 有 机 结合 适应 人 机 交互 功能 ,自然 促使 新 型 系统 的 出 现 , 即 DSS 的 出 现 。 决 策 支 
持 系统 不 同 于 MIS 数据 处 理 , 也 不 同 于 单 模型 的 数值 计算 ,而 是 它们 的 有 机 集成 。 它 既 具 
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有 数据 处 理 功能 又 具有 模型 的 数值 计算 功能 。 


决策 支持 系统 的 结构 形式 ,如 图 12. 1 所 示 。 1 

“人 机 交互 及 问题 综合 系统 (综合 部 件 )” 可 理解 Te 
为 对 实际 决策 问题 的 处 理 与 人 机 交互 的 综合 作用 。 (综合 部 件 ) 

在 决策 支持 系统 出 现 之 前 ,组 合 多 模型 辅助 决 Wy SA 
策 早已 出 现 ,具体 做 法 是 对 各 模型 编制 程序 并 在 计 [ 杭 型 认 管 理 系统 |- ~ | 数据 库 管理 系统 
算 机 中 运行 ,模型 之 间 的 关联 由 人 来 完成 , 即 由 人 来 [a 
完成 模型 的 组 合 。 对 模型 间 的 数值 计算 和 数据 处 “ee 谍 


理 ,只 能 由 人 在 计算 机 外 进行 。 因 为 每 个 模型 本 身 图 12.1 决策 支持 系统 结构 
是 不 考虑 与 其 他 模型 之 间 的 联结 问题 ,这 项 工作 只 
能 由 人 来 完成 。 在 出 现 决策 支持 系统 之 后 ,这 种 模型 间 的 处 理 ,应 由 “人 机 交互 及 问题 综合 
系统 ”部 件 来 完成 。 解 决 了 这 个 问题 才能 使 多 模型 的 组 合 运行 能 在 计算 机 中 自动 进行 。 多 
模型 的 组 合 形成 了 系统 的 方案 ,能 解决 更 复杂 的 问题 ,多 模型 组 合 的 自动 运行 为 改变 方案 中 
的 模型 和 数据 带 来 了 方便 。 在 系统 方案 中 采用 不 同 的 模型 或 数据 的 组 合 形成 不 同 的 方案 ， 
故 决策 支持 系统 为 解决 半 结 构 化 问题 (部 分 由 计算 机 完成 ,部 分 由 人 来 完成 的 问题 ) 成 为 
可 能 。 

为 达到 决策 支持 系统 有 效 自动 地 运行 , 它 对 语言 系统 的 功能 要 求 比 较 高 , 即 它 应 具有 调 
用 模型 运行 能 力 ,数据 库存 取 能 力 ,数值 运算 能 力 .数据 处 理 能 力 、 人 机 交互 能 力 5 种 综合 能 
力 , 称 为 决策 支持 系统 语言 , 它 不 同 于 数值 计算 语言 (如 FORTRAN、C 等 ), 还 要 有 很 强 的 
数据 处 理 ( 数 据 库 处 理 ) 能 力 。DSS 语言 应 是 两 类 语言 (数值 计算 语言 和 数据 库 语 言 ) 的 
综合 。 

决策 支持 系统 语言 是 使 原来 不 能 在 计算 机 上 实现 的 问题 , 即 多 模型 组 合 辅助 决策 问题 
( 即 半 结 构 化 问题 ) 能 在 计算 机 帮助 下 完成 。 

可 见 , 决 策 支 持 系统 是 技术 进步 的 产物 。 


3. 智能 决策 支持 系统 


智能 决策 支持 系统 (intelligent decision support systems，IDSS) 是 决策 支持 系统 与 人 
工 智 能 技术 相 结合 的 系统 。 

人 工 智能 技术 主要 是 以 知识 处 理 为 主体 ,利用 知识 进行 推理 ,完成 人 类 定性 分 析 的 部 分 
智能 行为 。 人 工 智能 技术 融入 决策 支持 系统 后 ,使 DSS 在 模型 技术 与 数据 处 理 技术 的 基础 
上 ,增加 了 知识 推理 技术 , 使 DSS 的 定量 分 析 和 AI 的 定性 分 析 结 合 起 来 ,提高 辅助 决策 和 
支持 决策 的 能 力 。 

智能 决策 支持 系统 是 DSS 的 重要 发 展 方向 ,中 国 在 20 世纪 90 年 代 初 期 形成 了 高 潮 ， 
建立 了 不 少 智能 决策 支持 系统 ,研究 文献 也 大 量 涌现 。 

传统 的 决策 支持 系统 是 以 模型 技术 和 数据 处 理 技术 为 基础 发 展 起 来 的 ,以 1980 年 
R. H. Spraque 提 出 的 三 部 件 结构 为 典型 代表 。 在 该 系统 中 模型 部 件 ( 模 型 库 与 模型 库 管理 
系统 ) 是 主体 。 在 该 决策 支持 系统 中 加 入 知识 部 件 ( 知 识 库 、 知 识 库 管理 系统 与 推理 机 ) 后 ， 
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形成 了 智能 决策 支持 系统 。 

在 这 里 要 说 明 的 是 ,知识 部 件 中 知识 库 管 理 系统 完成 的 是 对 知识 的 查询 、 浏 览 增加、 删 
除 修改、 维护 等 管理 工作 ,而 推理 机 完成 对 知识 的 推理 。 知 识 一 般 需 要 经 过 推理 才能 用 于 
解决 实际 问题 。 实 际 上 ,知识 推理 是 建立 从 初始 概念 到 中 间 概 念 , 最 后 到 目标 概念 的 推理 
链 。 例 如 ,“ 咳 嗽 “发 烧 ”" 是 人 的 症状 ,初始 概念 经 过 推理 得 出 该 人 是 “肺炎 ”或 “肺结核 ”的 
目标 概念 。 得 出 目标 概念 以 后 ,才能 对 “ 病 ” 进 行 “治疗 ”。 医 疗 知识 是 通用 的 ,但 对 不 同人 的 
病症 ,经 过 推理 之 后 ,得 出 的 “病名 ”是 不 同 的。 不 同 的 “病名 ”,“ 治 疗 ” 的 方法 将 不 同 ,“ 肺 炎 ” 
和 “肺结核 ”的 治疗 是 完全 不 同 的 。 可 以 说 ,推理 机 在 知识 部 件 中 是 重要 的 组 成 部 分 ,是 使 用 
知识 的 重要 手段 。 可 见 ,知识 部 件 不 同 于 模型 部 件 和 数据 部 件 , 由 知识 库 、 知 识 库 管理 系统 
和 推理 机 三 者 组 成 。 

智能 决策 支持 系统 是 决策 支持 系统 与 人 工 智能 技术 结合 的 系统 , 原 决策 支持 系统 的 “人 
机 交互 与 问题 综合 系统 "在 此 变 为 “问题 综合 与 交互 系统 "更 合适 。 

在 IDSS 结构 中 ,模型 库 系 统 ( 模 型 库 与 模型 库 管理 系统 ) 和 数据 库 系 统 ( 数 据 库 与 数据 
库 管理 系统 ) 是 DSS 的 基础 。 人 工 智能 技术 包括 专家 系统 、 神 经 网 络 、 遗 传 算法 、 机 器 学 习 
和 自然 语言 理解 等 。 其 中 : 专家 系统 的 核心 是 知识 库 和 推理 机 ; 神经 网 络 涉 及 样本 库 和 网 
络 权 值 库 (知识 库 ) ,神经 网 络 的 推理 机 是 MP 模型 ; 遗传 算法 的 核心 是 “选择 、 交 又、 突变 ”3 
个 算 子 , 可 以 看 成 是 遗传 算法 的 推理 机 , 它 处 理 的 对 象 是 群体 ,这 是 一 个 动态 库 ; 机 器 学 习 
包括 各 种 算法 库 ,算法 可 以 看 成 是 一 种 推理 , 它 对 实例 库 进行 算法 操作 获取 知识 ; 自然 语言 
理解 需要 语言 文法 库 ( 知 识 库 ) ,处 理 对 象 是 语言 文本 ,对 语言 文本 的 推理 采用 推 时 和 归 约 两 
种 方式 。 可 见 , 这 些 人 工 智能 技术 可 以 概括 为 

推理 机 十 知识 库 
智能 决策 支持 系统 的 结构 表示 如 图 12.2 所 示 。 


模型 库 管理 系统 = 一 一 一 一 一 | 数据 库 管理 系统 


1 
SN 知识 库 | 推理 机 2 


管理 系统 


模型 库 La 数据 库 


图 12.2 智能 决策 支持 系统 结构 


智能 决策 支持 系统 中 的 人 工 智能 技术 种 类 较 多 ,这 些 智 能 技术 都 是 决策 支持 技术 ,它们 
可 以 独立 开发 出 各 自 的 智能 系统 ,发 挥 各 自 的 辅助 决策 作用 。 智 能 技术 和 决策 支持 系统 结 
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合 起 来 形成 了 智能 决策 支持 系统 。 各 种 智能 技术 在 智能 决策 支持 系统 中 发 挥 的 作用 是 不 同 
的 。 一 般 智能 决策 支持 系统 中 的 智能 技术 只 有 一 种 或 两 种 。 
智能 决策 支持 系统 的 特点 是 以 模型 计算 和 知识 推理 的 方式 辅助 决策 , 称 为 传统 决策 支 


12.1.2 基于 数据 仓库 的 决策 支持 系统 与 传统 决策 支持 系统 的 结合 


数据 仓库 是 为 辅助 决策 而 建立 的 , 单 依靠 数据 仓库 达到 辅助 决策 的 能 力 是 有 限 的 。 
数据 仓库 中 有 大 量 的 综合 数据 ,这 些 数据 为 决策 者 提供 了 综合 信息 , 即 反映 企业 或 部 门 
的 宏观 状况 。 数 据 仓库 保存 有 大 量 历史 数据 ,这 些 数据 通过 预测 模型 计算 可 以 得 到 预测 
信息 。 

综合 信息 与 预测 信息 是 数据 仓库 所 获得 的 辅助 决策 信息 。 

数据 仓库 中 增加 联机 分 析 处 理 和 数据 挖掘 等 分 析 工 具 , 能 较 大 地 提高 辅助 决策 能 力 。 
联机 分 析 处 理 对 数据 仓库 中 的 数据 进行 多 维 数据 分 析 , 即 多 维 数据 的 切片 . 切 块 ,旋转 、 钻 取 
等 ,只 有 通过 分 析 更 详细 的 数据 ,才能 得 到 更 深层 中 的 信息 和 知识 。 数 据 挖掘 技术 能 获取 关 
联 知识 ,时序 知 识 . 聚 类 知识 .分 类 知识 等 。 使 用 数据 挖掘 技术 对 数据 仓库 中 的 数据 进行 控 
掘 , 才 能 获取 更 多 的 辅助 决策 信息 和 知识 。 

数据 仓库 和 联机 分 析 处 理 及 数据 挖掘 结合 的 决策 支持 系统 ,是 以 数据 仓库 为 基础 的 , 称 
为 基于 数据 仓库 的 决策 支持 系统 ,其 结构 如 图 12. 3 所 示 。 


决策 用 户 决策 信息 
知识 综合 信息 分 析 信息 
t 
| 联机 分 析 处 理 
数据 挖掘 -一 -| 2 
< i 元 数据 
2 历史 数据 数据 他 库 


图 12.3 基于 数据 仓库 的 决策 支持 系统 结构 


概括 地 说 ,基于 数据 仓库 的 决策 支持 系统 是 从 数据 仓库 的 数据 中 获取 辅助 决策 的 信息 
和 知识 ,为 决策 提供 支持 。 

基于 数据 仓库 的 决策 支持 系统 区 别 于 20 世纪 80 年 代 出 现 的 基于 模型 的 决策 支持 系统 
和 20 世纪 90 年 代 兴 起 的 智能 决策 支持 系统 。 基 于 模型 和 知识 的 智能 决策 支持 系统 是 传统 
的 决策 支持 系统 ,把 基于 数据 仓库 的 决策 支持 系统 称 为 新 决策 支持 系统 。 


1. 新 决策 支持 系统 与 传统 决策 支持 系统 的 比较 


新 决策 支持 系统 和 传统 决策 支持 系统 几乎 没有 什么 共同 之 处 ,它们 是 从 不 同 的 角度 发 
展 起 来 的 ,辅助 决策 的 方式 也 不 相同 。 由 于 两 者 不 是 覆盖 关系 ,也 就 不 存在 相互 代替 的 问 
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题 ,而 是 相互 补充 和 相互 结合 的 问题 。 

(1) 新 决策 支持 系统 中 数据 挖掘 获取 的 知识 与 传统 决策 支持 系统 的 知识 推理 中 的 知识 
是 不 相同 的 。 传 统 决策 支持 系统 的 知识 来 源 于 专家 的 领域 知识 和 经 验 知识 ,而 新 决策 支持 
系统 的 知识 来 源 于 数据 仓库 中 的 数据 ,它们 的 结合 将 扩大 知识 面 。 数 据 挖掘 获取 的 知识 也 
可 用 推理 机 来 进行 定性 分 析 , 也 就 是 说 ,数据 挖掘 可 以 和 专家 系统 结合 起 来 。 

(2) 新 决策 支持 系统 中 没有 充分 利用 模型 和 模型 组 合 来 辅助 决策 。 模 型 中 的 数学 模型 
是 管理 科学 /运筹 学 几 十 年 来 研究 的 成 果 , 它 们 为 各 企 事业 单位 的 决策 问题 提供 了 广泛 的 辅 
助 决策 信息 ,取得 了 显著 的 决策 效果 。 

新 决策 支持 系统 中 联机 分 析 处 理 主 要 是 进行 多 维 数据 分 析 , 通 过 切片 . 切 块 和 钻 取 操 
作 ,可 以 找 出 问题 出 现 的 原因 。 

(3) 决策 支持 系统 的 技术 还 没有 完全 成 熟 。 传 统 决策 支持 系统 虽然 发 展 了 二 十 多 年 ， 
有 很 多 研究 成 果 , 但 没有 完全 成 熟 的 产品 ,如 模型 库 系 统 就 是 一 个 典型 的 例子 。 新 决策 支持 
系统 刚 发 展 起 来 ,需要 在 实践 中 逐步 完善 。 

传统 决策 支持 系统 和 新 决策 支持 系统 结合 起 来 ,一 方面 可 以 相互 促进 .互相 结合 ,对 已 
成 熟 的 技术 可 以 先 结合 起 来 ,逐步 扩展 到 后 成 熟 的 技术 。 另 一 方面 ,这 种 结合 为 决策 支持 系 
统 的 发 展 前 景 指明 了 方向 。 


2. 新 决策 支持 系统 与 传统 决策 支持 系统 的 结合 


将 传统 决策 支持 系统 和 新 决策 支持 系统 结合 起 来 的 决策 支持 系统 称 为 综合 决策 支持 系 
统 (synthetic decision support system,SDSS ) 。 

20 世纪 90 年 代 中 期 兴起 的 数据 仓库 是 支持 决策 的 新 技术 ,数据 仓库 是 从 大 量 的 数据 
中 提取 综合 信息 和 预测 信息 进行 辅助 决策 。 它 和 传统 决策 支持 系统 有 明显 的 区 别 。 

紧 跟 数据 仓库 一 起 兴起 的 联机 分 析 处 理 的 数据 组 织 是 多 维 数据 结构 形式 , 它 与 数据 仓 
库 的 数据 组 织 是 一 致 的 。 联 机 分 析 处 理 和 多 维 数据 分 析 的 主要 手段 是 对 多 维 数据 的 切片 、 
切 块 .旋转 、 钻 取 等 操作 。 联 机 分 析 处 理 和 数据 仓库 的 结合 提高 了 数据 仓库 的 辅助 决策 
能 力 。 

数据 挖掘 技术 也 是 20 世纪 90 年 代 中 期 兴起 的 , 它 虽 然 是 对 数据 库 中 数据 的 挖掘 ,但 它 
应 用 于 数据 仓库 后 ,在 数据 仓库 中 获取 知识 ,也 提高 了 数据 仓库 的 辅助 决策 能 力 。 

数据 仓库 与 联机 分 析 处 理 和 数据 挖掘 三 者 结合 起 来 ,使 辅助 决策 能 力 极 大 地 提高 ,它们 
应 用 于 实际 决策 问题 而 形成 的 决策 支持 系统 是 一 种 新 型 决策 支持 系统 。 这 种 新 决策 支持 系 
统 的 典型 特点 是 从 数据 中 获取 辅助 决策 信息 和 知识 。 它 们 以 数据 仓库 中 的 大 量 数据 为 对 
象 ,数据 仓库 本 身 能 提供 综合 信息 和 预测 信息 ; 联机 分 析 处 理 提供 多 维 数据 分 析 信 息 ; 数 
据 挖掘 提供 所 获取 的 信息 和 知识 ,共同 为 实际 决策 问题 辅助 决策 。 

新 决策 支持 系统 不 同 于 传统 决策 支持 系统 。 传 统 决策 支持 系统 是 以 模型 和 知识 为 决策 
资源 ,通过 模型 的 计算 和 知识 推理 为 实际 决策 问题 辅助 决策 。 传 统 决策 支持 系统 是 组 合 模 
型 辅助 决策 的 。 大 量 的 模型 存放 在 模型 库 中 ,模型 与 模型 间 的 连接 是 通过 数据 完成 的 ,模型 
之 间 的 连接 数据 一 定 是 共享 数据 , 它 必 须 存 放 在 数据 库 中 。 早 期 的 决策 支持 系统 中 包含 模 
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型 库 系统 和 数据 库 系统 ,是 为 实现 多 模型 组 合 需要 。 模 型 的 计算 属于 数值 计算 ,组 合 模型 的 
辅助 决策 完成 了 定量 分 析 辅 助 决策 效果 。 

知识 推理 是 人 工 智能 技术 ,以 专家 系统 为 代表 的 知识 推理 完成 了 定性 分 析 辅 助 决策 。 
早期 的 决策 支持 系统 和 专家 系统 的 结合 形成 了 智能 决策 支持 系统 ,实现 了 定量 分 析 辅 助 决 
策 与 定性 分 析 辅 助 决策 的 结合 , 即 达到 更 高 的 辅助 决策 效果 。 

新 决策 支持 系统 与 传统 决策 支持 系统 在 本 质 上 是 不 一 样 的 ,也 就 是 说 ,不 能 用 新 决策 支 
持 系统 来 代替 传统 决策 支持 系统 。 为 了 更 有 效 地 辅助 决策 ,应 该 将 新 决策 支持 系统 和 传统 
决策 支持 系统 结合 起 来 。 


3. 综合 决策 支持 系统 结构 


把 数据 仓库 联机 分 析 处 理 、 数 据 挖掘 、 模 型 库 (MB)、 数 据 库 、 知 识 库 (KB) 结 合 起 来 形 
成 的 综合 决策 支持 系统 是 更 高 级 形式 的 决策 支持 系统 。 其 中 数据 仓库 能 够 实现 对 决策 主题 
数据 的 存储 和 综合 以 及 时 间 趋 势 分 析 。 联 机 分 析 处 理 实现 多 维 数据 分 析 , 数 据 挖掘 从 数据 
库 和 数据 仓库 中 获取 信息 和 知识 ,模型 库 实 现 多 个 模型 的 组 合 辅助 决策 ,数据 库 为 辅助 决策 
提供 数据 ,知识 库 中 知识 通过 推理 进行 定性 分 析 。 它 们 集成 的 综合 决策 支持 系统 (SDSS) 将 
相互 补充 和 依赖 ,发 挥 各 自 的 辅助 决策 优势 ,实现 更 有 效 的 辅助 决策 。 

综合 的 决策 支持 系统 (SDSS) 结 构 如 图 12.4 所 示 。 


用 户 
问题 综合 与 交互 系统 x 
决策 信息 
模型 库 管理 系统 条 多 知识 | 信息 


模型 库 


| 


联机 分 析 处 理 


下 
数据 库 管理 系统 


数据 控 气 
| 数据 仓库 管理 系统 
数据 库 数据 仓库 


图 12.4 综合 决策 支持 系统 (SDSS) 结 构 


综合 决策 支持 系统 由 3 个 主体 组 成 : 
(1) 模型 库 系统 和 数据 库 系统 结合 的 主体 。 该 主体 完成 多 模型 的 组 合 与 大 量 共享 数据 
的 处 理 , 是 利用 模型 资源 辅助 决策 的 。 
(2) 数据 仓库 系统 与 联机 分 析 处 理 结合 的 主体 。 该 主体 完成 对 数据 仓库 中 数据 的 综 
合 、 预 测 和 多 维 数据 分 析 ,是 利用 数据 资源 辅助 决策 的 。 
(3) 知识 库 系 统 ( 知 识 库 、 推 理 机 和 知识 库 管 理 系统 ) 与 数据 挖掘 结合 的 主体 。 该 主体 
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完成 知识 推理 ,是 利用 知识 资源 辅助 决策 的 。 
12.1.3 综合 决策 支持 系统 发 展 趋势 


1. 综合 决策 支持 系统 的 兴起 


数据 仓库 强调 数据 驱动 , 即 以 数据 为 基础 ,将 传统 的 数据 库 系统 的 数据 进行 从 面向 应 用 
的 需求 转变 到 数据 仓库 的 面向 分 析 的 需求 ,向 用 户 提 供 更 准确 和 更 有 用 的 决策 信息 。 但 是 
数据 仓库 未 明确 提出 利用 模型 的 问题 。 

实际 上 ,从 数据 仓库 的 结构 图 中 可 以 看 出 ,要 完成 从 当前 基本 数据 层 中 的 数据 汇总 到 轻 
度 综 合 数据 ,再 从 轻 度 综 合 数据 汇总 到 高 度 综合 数据 ,是 需要 通过 汇总 模型 来 完成 的 。 另 
外 ,数据 仓库 从 历史 数据 中 得 到 预测 信息 ,是 需要 通过 预测 模型 来 完成 的 。 可 见 ,数据 仓库 
达到 辅助 决策 的 目的 仍 需要 模型 。 不 过 ,数据 仓库 中 使 用 的 模型 是 固定 和 单一 的 ,相对 于 数 
据 仓库 中 的 数据 来 说 是 次 要 的 。 

随 着 数据 仓库 的 广泛 应 用 和 发 展 ,数据 仓库 在 逐步 增加 各 种 模型 ,来 提高 辅助 决策 
效果 。 

以 客户 为 中 心 的 银行 数据 仓库 使 用 模型 情况 如 下 : 

(1) 分 销 渠 道 的 分 析 模 型 

通过 客户 .渠道 .产品 或 服务 三 者 之 间 的 关系 ,了 解 客户 的 购买 行为 .客户 和 渠道 对 业务 
收入 的 贡献 .哪些 客户 比较 喜好 由 什么 渠道 在 何 时 和 银行 打交道 .目前 的 分 销 渠 道 的 服务 能 
力 如 何 、 需 要 增加 哪些 分 销 渠 道 才能 达到 预期 的 服务 水 平 。 

为 此 ,银行 需要 建立 客户 购买 倾向 模型 和 渠道 喜好 模型 等 。 

(2) 客户 利润 贡献 度 模型 

通过 该 模型 能 了 解 每 一 位 客户 对 银行 的 总 利润 贡献 度 ,银行 可 以 依 客户 的 利润 贡献 度 
安排 合适 的 分 销 渠 道 提 供 服 务 和 销售 ;知道 哪些 有 利润 的 客户 需要 留 住 ,采用 什么 方法 留 住 
客户 ;交叉 销售 改善 客户 的 利润 贡献 度 ; 哪 些 客户 应 该 争取 ,完成 个 性 化 服务 。 另 外 ,银行 可 
以 模拟 和 预测 新 产品 对 银行 的 利润 贡献 度 , 或 者 新 政策 对 银行 将 产生 什么 样 的 财务 影响 ,或 
者 客户 流失 或 留 住 对 银行 的 整体 利润 的 影响 。 

(3) 客户 关系 (信用 ) 优 化 模型 

银行 对 客户 的 每 一 笔 交易 中 ,知道 客户 需要 什么 产品 或 服务 ,例如 ,定期 存款 是 希望 退 
休养 老 使 用 ; 申请 信用 卡 需 要 现金 消费 ; 询问 放贷 利息 需要 住房 贷款 等 ,这 些 都 是 银行 提 
供 产 品 或 服务 最 好 的 时 机 。 银 行 需要 将 账号 每 天 发 生 的 交易 明细 ,以 实时 或 定时 方式 加 载 
到 数据 仓库 中 ,校对 客户 行为 的 变化 。 当 有 上 述 变 化 时 ,通过 模型 计算 ,主动 地 与 客户 沟通 
并 进行 交叉 销售 ,达到 留 住 客户 和 增加 利润 的 目标 。 

(4) 风险 评估 模型 

模拟 风险 和 利润 间 的 关系 ,建立 风险 评估 的 数学 模型 ,在 满足 高 利润 . 低 风 险 客 户 需求 
的 前 提 下 ,达到 银行 收益 的 极 大 化 。 

银行 通过 以 上 模型 实现 以 客户 为 中 心 的 数据 仓库 决策 支持 系统 ,才能 真正 实现 个 性 化 
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服务 ,提高 银行 竞争 优势 。 

传统 决策 支持 系统 的 优化 模型 为 企业 或 者 部 门 的 发 展 提出 了 有 效 的 途径 。 若 数据 仓库 
中 能 加 入 类 似 于 优化 模型 的 数学 模型 ,将 会 提高 数据 仓库 辅助 决策 能 力 。 

在 数据 仓库 系统 中 增加 模型 库 来 提高 辅助 决策 效果 ,这 就 形成 了 综合 决策 支持 系统 的 
初 型 。 


2. 网 络 环境 的 综合 决策 支持 系统 


Internet 技术 推动 了 决策 支持 系统 的 发 展 。 网 络 上 的 数据 库 服务 器 使 数据 库 系 统 从 单 
一 的 本 地 服务 上 升 为 网 络 上 的 远程 服务 ,而 且 能 对 远 地 多 个 用 户 的 不 同 客户 机 ,同时 并 发 地 
提供 服务 。 新 发 展 起 来 的 数据 仓库 也 是 以 服务 器 形式 在 网 络 上 提供 共享 和 并 发 服务 。 数 据 
库 和 数据 仓库 都 是 数据 资源 。 同 样 ,将 模型 资源 和 知识 资源 也 以 服务 器 的 形式 在 网 络 上 为 
远 地 的 客户 机 提供 并 发 和 共享 的 模型 服务 和 知识 服务 。 

模型 服务 器 中 可 以 集成 大 量 的 数学 模型 数据 处 理 模型 、 人 机 交互 的 多 媒体 模型 等 ,为 
用 户 提供 不 同类 型 的 模型 服务 ,也 可 以 为 用 户 提供 组 合 多 种 类 型 模型 的 综合 服务 。 

知识 服务 器 中 可 以 集中 多 种 智能 问题 的 知识 库 , 或 者 是 不 同 知识 表示 形式 的 知识 (规则 
知识 .谓词 知识 ,框架 知识 .语义 网 络 知识 等 ) 和 多 种 不 同 的 推理 机 ,如 正 向 推理 机 、 逆 向 推理 
机 、 混 合 推理 机 等 。 

决策 支持 系统 的 综合 部 件 (问题 综合 与 交互 系统 ) 是 由 网 络 上 的 客户 机 来 完成 的 , 即 在 
客户 机 上 编制 DSS 控制 程序 ,由 它 来 调用 或 者 组 合 模型 服务 器 上 的 模型 ,完成 模型 计算 ; 
知识 服务 器 上 的 知识 完成 知识 推理 以 及 数据 仓库 的 综合 信息 查询 ,或 用 历史 数据 进行 预测 。 
这 样 ,就 形成 了 网 络 环境 的 综合 决策 支持 系统 ,其 结构 图 如 图 12. 5 所 示 。 


客户 i 客户 /7 客户 上 


数据 仓库 服务 器 (DWS) 


模型 服务 器 (MS) ”知识 服务 器 (KS) ” 联机 分 析 与 数据 挖掘 服务 器 (ODS) 
图 12.5 网 络 环境 的 综合 决策 支持 系统 结构 


网 络 环境 的 综合 决策 支持 系统 是 决策 支持 系统 的 发 展 方向 。 由 于 Internet 技术 的 成 熟 
和 普及 ,这 种 结构 形式 的 决策 支持 系统 很 快 就 会 出 现 。 


12.2 可 拓 数 据 挖掘 


12.2.1 可 拓 学 基本 原理 

具体 来 说 ,可 拓 学 的 理论 和 方法 就 是 通过 可 拓 变 换 与 可 拓 知 识 来 改变 问题 的 目的 或 条 
件 , 去 解决 矛盾 的 问题 。 可 拓 学 是 我 国学 者 葡文 教授 提出 的 原创 性 理论 和 方法 。 

可 拓 学 的 详细 内 容 参 见 (可 拓 净 辑 初步 ) 等 书 , 在 此 只 作 简 单 说 明 。 

1. 可 拓 学 的 基础 信息 


可 拓 学 将 客观 世界 的 物事、 关系 表示 为 物 元 、 事 元 、 关 系 元 ,把 它们 统称 为 基 元 ,它们 是 
可 拓 学 的 基础 信息 。 


(1) 物 元 
物 元 表示 为 : R==(N,c,v), 是 物 N 特征 c 及 取 值 v 的 三 元 组 。 
例如 : 
Ne 工件 长 度 30cm 
R= (N,c,v) = cs vs|= 直径 wn (12.1) 
C3 Vs 重量 2kg 
(2) 事 元 
事 元 表示 为 : [一 (d,0,x) ,是 动词 & 特征 和 及 取 值 wx 的 三 元 组 。 
例如 : 
d bl uw 打 支配 对 象 ” 球 
T= (d,b,u) = | 旋 动 对 象 “小 胃 C12: 2) 
BG us 时 间 下 午 
1 地 点 ”球场 
(3) 关系 元 
关系 元 表示 为 :Q 二 (s,A,W), 是 关系 ,特征 A 及 量 值 W 的 三 元 组 。 
例如 : 
[s a ww | [借贷 前 项 公司 A 
mi | | 人 (12.3) 
as ws 程度 100 万 元 
at wh 维系 方式 ”合同 


2. 可 拓 变 换 


解决 矛盾 问题 的 工具 是 可 拓 变 换 。 通 过 可 拓 变 换 , 使 求知 问题 中 不 可 知 问题 变 为 可 知 
问题 ,使 求 行 问题 中 不 可 行 问题 转化 为 可 行 问题 ,使 假 命题 变 为 真 命题 , 即 通 过 可 拓 变 换 变 
矛盾 问题 为 不 矛盾 问题 。 

可 拓 变 换 是 把 一 个 对 象 变 为 男 一 个 对 象 , 即 可 拓 变 换 了 将 基 元 x 变 成 基 元 ,表示 为 

“0 


Tu 一 了 (12. 4) 
可 拓 变 换 了 包括 置换 .增加 、 删 减 . 扩 大 、 缩 小 等 。 具 体 表示 为 : 
(1) 置换 变换 : T(A) 二 A” 
(2) 增加 变换 : T(A)=A@A4, 
(3) 删 减 变换 : T(A) = 一 A 一 A, 
(4) 扩 缩 变换 : T(A)=aA , 当 w>>1 时 为 扩大 变换 , 当 0 和 <1 时 为 缩小 变换 。 


3. 可 拓 信 息 


可 拓 信 息 是 解决 矛盾 问题 的 信息 。 可 拓 学 的 基 元 ( 物 元 、 事 元 、 关 系 元 ) 是 可 拓 信 息 的 基 
础 信息 。 可 拓 学 的 变换 是 变化 信息 ,通过 变换 才能 变 矛 盾 问 题 为 不 矛盾 问题 。 
可 拓 信 息 = 基 元 (基础 信息 ) 十 可 拓 变 换 ( 变 化 信息 ) (12.5) 
可 拓 信 息 中 的 基 元 信息 属于 静态 的 描述 ,而 变化 信息 属于 变化 的 信息 ,具有 变化 特征 。 
解决 矛盾 必须 通过 可 拓 变 换 , 即 利用 变化 的 信息 才能 解决 矛盾 问题 。 


4. 可 拓 学 的 基础 知识 


可 拓 学 的 基础 知识 为 拓展 式 , 包 括 发 散 式 、 相 关 式 、 可 扩 式 、 蕴 涵 式 等 。 
。 发 散 式 ; (Ni ,C1501)d (Niscisv), i=1,2,° ,nn 

。 相关 式 ; (Ni ,ci ,vi 中 (Ns ,cs ,v2) 

。 蕴涵 式 : (Ni ,ci ,v1) 玉 (Ns; ,co ,v2) 

。 可 扩 式 : (Niycisw) A (Ns vcs vs) 


可 拓 学 的 传导 原理 是 可 拓 变 换 T, 引起 相应 的 传导 变换 T。, 将 这 种 关系 表示 为 变换 区 
涵 式 , 它 是 变化 的 知识 ， 


(Tu 二 ww) 一 (Tw = 二 wv)， 简写 为 T, 一 了 TT, (12.6) 
5. 关联 函数 
可 拓 学 引入 关联 函数 ,将 矛盾 问题 进行 量化 处 理 , 称 为 量化 知识 。 
关联 函数 公式 : 
plz Xo) 
a (eo, 
其 中 
oz,Xo) = lr- (12. 8) 


0 表示 点 x 到 区 间 XX。 二 过 a,6 这 之 距 ,D(x,Xo,X) 二 p(x,X) 一 p(x,Xo)。x 在 Xo 中 ， 
&A(z) 盖 0 是 正 域 区间 , 即 量变 区 间 。z 在 区 间 久 二 过 c,d 放 中 ,k(x) 二 0 是 负 域 区 间 , 即 质变 
区 间 。 

关联 函数 本 身 属 于 知识 。 当 工 从 区 间 Xu。 变化 到 区 间 X 后 , 即 关联 函数 &Cz) 由 正 数 变 
为 负数 ,表明 从 量变 到 质变 , 即 矛 盾 问 题 得 到 解决 。 


6. 可 拓 知 识 


在 智能 科学 中 ,对 知识 概念 有 很 多 定义 ,比较 典型 的 定义 有 : 
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(1) Feigenbaum( 费 根 鲍 姆 ) 定 义 : 知识 是 信息 经 过 加 工整 理 、 解 释 、 挑 选 和 改造 而 形 
成 的 。 

(2) Bernstein(Hayes-Roth 引用 ) 定 义 : 知识 是 某 一 特定 域 的 表达 式 、 关 系 和 过 程 构 
成 的 。 

(3)《 人 工 智能 辞典 ) 中 的 定义 : 知识 是 人 们 对 客观 世界 的 规律 性 的 认识 。 

可 见 ,知识 是 对 信息 进行 加 工 , 得 到 如 表达 式 、 关 系 等 规律 性 的 信息 。 知 识 是 对 信息 进 
行 浓缩 , 找 出 事物 中 存在 的 规律 。 

可 拓 知 识 是 解决 矛盾 问题 的 知识 。 可 拓 学 的 拓展 式 ( 发 散 式 、 相 关 式 、 可 扩 式 、 蕴 涵 式 
等 ) 是 可 拓 知 识 的 基础 知识 。 可 拓 学 的 传导 原理 的 变换 蕴涵 式 是 变化 知识 。 可 拓 学 的 关联 
函数 将 矛盾 问题 进行 量化 处 理 , 称 为 量化 知识 。 它 们 共同 构成 了 可 拓 知 识 , 即 : 

可 拓 知 识 = 拓展 式 ( 基 础 知识 ) 十 变换 蕴涵 式 ( 变 化 知识 ) 十 关联 函数 〈12.9) 

可 拓 知 识 中 的 拓展 式 中 的 荀 涵 式 与 人 工 智能 的 产生 式 规则 是 一 致 的 。 拓 展 式 中 的 发 散 
式 、 相 关 式 、 可 扩 式 等 可 以 看 成 是 产生 式 的 扩展 。 它 们 具有 静态 特征 。 

可 拓 知 识 中 的 变换 蕴涵 式 是 典型 的 变化 知识 ,是 解决 矛盾 问题 的 更 有 价值 的 知识 。 可 
见 , 可 拓 知 识 体现 了 变化 知识 的 特点 。 


12.2.2 从 数据 挖掘 到 可 拓 数 据 挖掘 


数据 挖掘 是 从 数据 中 挖 扎 出 知识 。 由 于 数据 具有 静态 性 ,代表 已 存在 的 事实 ,所 挖掘 的 
知识 也 具有 静态 性 。 
我 们 提出 可 拓 数 据 挖掘 ,在 于 挖掘 可 拓 知 识 , 是 数据 挖掘 的 扩展 。 主 要 包含 如 下 两 类 : 


1. 挖掘 关联 函数 的 区 间 信 息 

解决 矛盾 问题 的 量化 方法 是 建立 关联 函数 ,通过 可 拓 变 换 使 变量 x 从 区 间 X。 变 换 到 
,区间 参数 a、b、c.d 一 般 是 运用 实验 或 统计 得 到 。 

利用 数据 挖掘 方法 获取 区 间 参 数 信息 ,是 可 拓 数 据 挖掘 的 一 类 重要 任务 。 

2. 挖掘 变换 蕴涵 式 的 可 拓 数 据 挖掘 


数据 挖掘 中 能 获取 知识 (条 件 一 结论 ) ,对 条 件 进行 可 拓 变 换 和 对 结论 进行 传导 变换 , 获 
得 的 变化 的 知识 , 即 可 拓 知 识 : 
了 条 件 -> 了 结论 (12, 10) 
把 这 种 挖掘 变化 的 知识 称 为 可 拓 数 据 挖掘 。 


12.2.3 可 拓 数 据 挖掘 理论 
1. 可 拓 数 据 挖掘 定理 


定理 1 对 于 两 类 规则 
A 一 了 C211 
B—>N (12. 12) 
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一 般 情况 A= Mai,B= Mb; 


车 存在 条 件 的 可 拓 变 换 T 和 件 : 
T##(B)= A C12, 13) 
并 存在 结论 的 可 拓 变 换 Taie (为 Ts 人 # 的 传导 变换 ) ; 
Ta (N)=P 1% 14) 
则 成 立 可 拓 变 换 知识 (变化 知识 ) 
T(B)=A—>T(N)=P (12. 15) 
即 
if T(B)=A then T(N)=P (12. 16) 


证 明 : 

(1) 定理 的 已 知 条 件 表示 成 命题 逻辑 公式 ,并 化 为 子 句 型 : 

© A~Po AVP 

©® B>NoE_BVN 

@ T(B)=Ac-BAA~-B,A 

Q@TIN)=P-NAP-N,P 

(2) 对 定理 的 结论 取 非 后 化 成 子 句 型 : 
AT(B)=A>T(N)=P)EA(BAA)>CONAPJEAACB AAV CNAP)S 


A(BV-A)V (NAP)JEABVAA)AANAP)EBAAAN(NV -PE-B,A,NV-P 


(3) 对 全 部 子 句 集 进行 归结 : 
@ 全 部 子 句 集 为 : AVP,-BVN,-B,A,-N,P,NVP。 
@ 归结 过 程 : 子 句 -AV P 与 子 句 A 归结 为 己 , 它 与 子 句 NV -P 归结 为 N ,再 和 子 句 一 


NN 归结 为 空子 句 。 产 生 了 矛盾 , 故 证 明定 理 正 确 。 


定理 2 对 于 两 条 同类 规则 


A—P (12.17) 
CAB>P (12. 18) 
若 存 在 可 拓 变 换 
T(B)=A C12, 19% 
则 成 立 可 拓 变 换 知识 
T(B) 一 A 一 了 (12. 20) 
即 
if T(B)=A then P (12,21% 
该 定理 同样 可 用 归结 原理 证 明 , 在 此 省 略 。 
2， 可 拓 数 据 挖掘 过 程 
从 可 拓 数 据 挖掘 定理 中 可 以 概括 可 拓 数 据 挖掘 过 程 为 
步骤 1: 对 分 类 问题 利用 数据 挖掘 方法 获得 分 类 规则 , 即 获得 公式 (12. 11) 和 (12. 12) 的 
知识 。 


步骤 2: 确定 规则 的 前 提 中 存在 可 拓 变 换 以 及 结论 中 存在 可 拓 变 换 , 即 找 出 满足 公式 
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(12.13) 和 (12. 14) 的 可 拓 变 换 。 
步骤 3: 利用 定理 1 和 定理 2 获得 可 拓 知 识 (12. 15) 或 (12. 20)。 


3. 可 拓 推 理 
在 智能 科学 中 ,知识 推理 采用 了 形式 逻辑 中 的 假 言 推理 。 即 
PA(P—>Q)FHQ Ci2 22 
可 拓 推 理 是 对 拓展 式 和 变换 蕴涵 式 的 假 言 推理 。 
(1) 拓展 推理 
对 拓展 式 的 假 言 推理 称 为 拓展 推理 。 以 发 散 式 为 例 ,发 散 式 推 理 表示 为 
(Nicu) A [Ny yesv)d (Nicu)]HFCONcv) (L223 
(2) 传导 推理 
变换 弄 涵 式 是 可 拓 变 换 与 传导 变换 之 间 的 蕴涵 式 , 它 的 假 言 推理 称 为 传导 推理 ,表示 为 
(Tu=u) A[Tu=u) => (Tv=v HFT = vv) (12. 24) 


可 拓 推 理 是 在 知识 推理 的 基础 上 扩展 为 对 变化 知识 的 推理 。 

下 面 证 明 可 拓 推 理 公式 (12. 24) 是 正确 的 。 

证 明 : 

(1) 将 公式 (12.24) 中 推理 ( 上 ) 的 左 部 写成 等 价 的 命题 逮 辑 公式 

(Auw)AL Au)— (wv A v)] 

(2) 上 式 化 为 子 句 型 ; 

(Nu NAAN > wvAv I AN I AAAAIV Cw Av Eu A) 
A[CQaV a OV OwAv I uA I AV Vo ANACuV a Vv Eu Nw) NuV 
VNUAV Vo Oo UV VCGV Vv ) 

(3) 将 推理 ( 上 ) 的 右 部 取 非 后 ,化 为 子 句 型 ， 

ATv=v Eo Aw A vOvYV -ol 

(4) 归结 过 程 : 子 句 wV -wv 与 子 句 (4V -Vv) 归 结 为 -v VuV 到, 它 与 子 句 - 归结 
为 -vw V 下 ,与 尼 归 结 为 心 ,再 与 子 句 (wxV -到 Vv ) 归 结 为 uV 到 ,与 飞 归 结 为 - ,再 与 
uw 归结 为 空子 句 。 

产生 矛盾 ,证 明 可 拓 推 理 公式 (12. 24) 是 正确 的 。 

可 拓 知 识 只 表明 存在 变化 的 可 能 性 。 可 拓 推 理 表明 实际 变化 的 发 生 。 在 公式 (12. 15) 
中 ,可 拓 知 识 (T, 一 T,) 表 明 对 的 变换 T, 会 引起 对 v 的 变换 T.。。 而 可 拓 推 理 式 (12. 24) 表 
明 现 已 发 生变 换 T, , 按 公 式 (12. 24) 必 然 出 现 变换 T, 。 


12.2.4 可 拓 数 据 挖掘 实例 


1. 实例 1 
气候 训练 集 如 数据 表 12. 1 所 示 。 
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表 12.1 气候 训练 集 


属 性 
No 类 别 
丢 气 气温 湿度 风 

1 晴 热 高 无 风 N 
2 晴 热 高 有 风 N 
3 多 云 热 高 无 风 P 
4 雨 适中 高 无 风 P 
5 雨 冷 正常 无 风 P 
6 雨 冷 正常 有 风 N 
多 云 冷 正常 有 风 P 
8 晴 适中 高 无 风 N 
9 晴 冷 正常 无 风 P 
10 雨 适中 正常 无 风 P 
11 晴 适中 正常 有 风 到 
12 多 云 适中 高 有 风 P 
13 多 云 热 正常 无 风 P 
14 雨 适中 高 有 风 N 


(1) 数据 挖掘 获取 的 规则 知识 有 (参见 本 书 7. 2. 2 小 节 ): 
。 让 天 气 = 晴 and 湿度 = 正常 then 类 别 =P 
。 if 天 气 = 多 云 then 类 别 =P 

。if 天 气 = 雨 and 风 = 无 风 then 类 别 =P 

。 让 天 气 == 晴 and 湿度 = 高 then 类 别 =N 

。 if 天 气 = 雨 and 风 = 二 有 风 then 类 别 =N 
(2) 存在 的 可 拓 变 换 : 

@ 条 件 变 换 

。 工 (天 气 = 晴 )==( 天 气 = 多 云 ) 

。T,( 天 气 = 晴 )==( 天 气 = 雨 ) 

。 Ts (天 气 = 雨 ) 一 (天 气 王 多 云 ) 

。T,( 天 气 = 多 云 )==( 天 气 = 晴 ) 

。 Ts (天 气 = 雨 )= (天气 = 上 晴 ) 

。 Ti (天 气 王 多云 ) 一 (天 气 一 雨 ) 

。 7T (湿度 = 高 )==( 湿度 = 正常 ) 

。T, (湿度 = 正常 ) 二 ( 湿度 = 高 ) 

。T( 风 = 无 风 )==( 风 王 有 风 ) 

。 Tuo( 风 = 二 有 风 )==( 风 = 无 风 ) 

@ 结论 变换 

。T(N)=P 

。T(P)=N 

(3) 利用 可 拓 数 据 挖掘 定理 1 和 定理 2 可 以 得 到 的 变化 知识 : 
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Q@ 类 别 发 生变 化 的 知识 

。【( 天 气 = 晴 ) and (T? (湿度 = 高 )==( 湿度 = 正常 ) ) 一 T(N) 王 P 
。 (湿度 = 高 ) and (Ti (天气 = 上 晴 )==( 天 气 = 多 云 ) ) 一 T(N) 一 P 
。( 天 气 = 雨 ) and (Tw( 风 = 二 有 风 )==( 风 == 无 风 )) 一 T(N)==P 

( 风 王 有 风 ) and (Ts:( 天 气 一 雨 ) 一 (天 气 一 多 云 ) ) 一 T(N) 一 P 
。( 天 气 = 晴 ) and (Ts (湿度 = 正常 )=( 湿度 = 高 ) ) 一 TIP) 一 N 
。 (天 气 = 雨 ) and (Ts( 风 = 无 风 )==( 风 王 有 风 )) 一 T(P)=N 

@ 类 别 不 发 生变 化 的 知识 

。 (湿度 = 正常 ) and (Ti( 天 气 = 晴 )=( 天 气 = 多 云 ) ) 一 类别 =P 
。( 风 = 无 风 ) and (Ts (天气 = 雨 )==( 天 气 = 多 云 ) ) 习 类 别 =P 
。【( 风 = 无 风 ) and(T。 (天气 = 多 云 )=( 天 气 = 雨 ) ) 一 类 别 王 P 

。 (湿度 = 正常 ) and(T, (天气 = 多 云 )== (天气 = 晴 ) ) 习 类 别 =P 


2. 实例 2 

在 “ 脑 血栓 与“ 脑 出 血 ? 两 类 疾病 的 数据 库 中 进行 数据 挖掘 和 可 拓 数 据 挖掘 。 

(1) 在 数据 库 中 通过 数据 挖掘 获取 规则 知识 

从 * 脑 出 血 " 和 ”* 脑 血栓 ?两 种 疾病 的 大 量 实例 数据 库 中 ,通过 数据 挖掘 的 遗传 算法 可 以 
获取 两 种 疾病 独立 诊断 的 规则 知识 (参见 本 书 10. 5. 3 小 节 ) 。 获 得 的 主要 7 条 规则 

a 高 血压 二 有 人 瞳孔 不 等 大 = 是 人 膝 腿 反射 = 不 活跃” 一 脑 出 血 


@ 瞳孔 不 等 大 = 是 人 语言 障碍 = 是 一 脑 出 血 
加 高 血压 二 有 人 起 病 方式 一 快 人 意识 障碍 一 深度 一 脑 出 血 
@ 高 血压 二 有 人 病情 发 展 = 快 一 脑 出 血 
@ 高 血压 二 有 人 动脉 硬化 = 有 人 起 病 方式 = 慢 一 脑 血栓 
@ 动脉 硬化 二 有 八 病情 发 展 = 慢 一 脑 血栓 
@ 动脉 硬化 = 有 人 意识 障碍 = 无 一 脑 血栓 
(2) 确定 存在 的 可 拓 变 换 

在 医疗 中 病人 存在 的 可 拓 变 换 有 : 


T( 起 病 方式 慢 ) 一 起 病 方式 快 , T( 无 意识 障碍 ) 一 深度 意识 障碍 。 也 存在 可 拓 变 换 ; 了 
( 脑 血 栓 ) 王 脑 出 血 。 
(3) 利用 可 拓 数 据 挖掘 定理 获取 可 拓 知 识 (变化 的 知识 ) 
根据 定理 1 得 到 可 拓 变 换 知识 (变化 知识 ) 为 
T( 有 动脉 硬化 人 起 病 方式 慢 人 无 意识 障碍 ) 王 起 病 方 式 快 人 有 深度 意识 障碍 
一 工 ( 脑 血 栓 ) = 脑 出 血 《2 2 
还 可 以 得 出 其 他 的 可 拓 知 识 。 


3. 可 拓 推 理应 用 


可 拓 知 识 ( 变 化 的 知识 ) 只 说 明 前 提 的 可 拓 变 换 会 引起 结论 的 可 拓 变 换 (传导 变换 ) ,并 
不 表示 已 经 发 生 了 变化 。 可 拓 知 识 中 的 前 提 一 旦 在 现实 中 出 现 ,就 可 以 利用 可 拓 推 理 判 断 
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可 拓 知 识 中 结论 的 出 现 。 

在 实例 2 中 , 当 发 现 某 病人 由 起 病 方式 慢 变 成 起 病 方 式 快 ,同时 无 意识 障碍 变 成 有 深度 
意识 障碍 , 即 可 拓 知 识 (12. 25) 的 前 提 已 经 出 现 ,利用 可 拓 推 理 (12. 24) 就 可 以 判断 可 拓 知 识 
(12. 25) 的 结论 已 经 出 现 , 即 应 该 诊断 该 病人 已 经 由 “ 脑 血栓 ” 变 成 了 “ 脑 出 血 ”。 治 疗 方式 就 
应 改 由 “ 脑 血 栓 ” 的 治疗 方法 变 成 治疗 “ 脑 出 血 ” 的 方法 。 

两 种 疾病 的 治疗 方法 是 完全 相反 的 ,车 仍然 用 “ 脑 血栓 ”的 治疗 方法 治疗 “ 脑 出 血 ”, 将 会 
快速 加 重 * 脑 出 血 ” 症 状 , 甚 至 于 导致 死亡 。 这 条 变化 知识 对 医生 来 讲 是 极其 重要 的 。 

可 见 , 挖 掘 变 化 知识 的 可 拓 数 据 挖掘 比 挖掘 静态 知识 的 数据 挖掘 更 有 意义 。 


习 题 


. 管理 科学 是 如 何 辅助 决策 的 ? 

. 决策 支持 系统 的 结构 是 什么 ? 它 是 如 何 辅助 决策 的 ? 

. 智能 决策 支持 系统 的 结构 是 什么 ? 

. 数据 仓库 是 如 何 辅助 决策 的 ? 

. 基于 数据 仓库 的 决策 支持 系统 结构 是 什么 ? 它 是 如 何 辅助 决策 的 ? 
.新 决策 支持 系统 与 传统 决策 支持 系统 有 什么 不 同 ? 

. 为 什么 要 把 新 决策 支持 系统 与 传统 决策 支持 系统 结合 起 来 ? 
. 综合 决策 支持 系统 的 结构 是 什么 ? 它 由 哪些 主体 组 成 ? 
.举例 说 明 数 据 仓库 中 增加 模型 库 如 何 提高 辅助 决策 能 力 的 。 
. 网 络 上 的 服务 器 是 如 何 提高 服务 效果 的 ? 

. 网 络 环境 的 综合 决策 支持 系统 的 结构 是 什么 

. 可 拓 学 的 基础 信息 有 哪些 ? 

. 可 拓 变 换 有 哪些 ? 

. 可 拓 信 息 如 何 定 义 ? 它 的 特点 是 什么 ? 

. 可 拓 学 的 基础 知识 有 哪些 ? 

. 可 拓 学 的 关联 函数 如 何 定义 ? 

. 可 拓 知 识 如 何 定义 ? 它 与 一 般 的 知识 定义 有 什么 不 同 ? 

. 什么 是 可 拓 数 据 挖掘? 它 与 数据 挖掘 有 什么 不 同 ? 

. 可 拓 数 据 挖掘 的 定理 1 是 什么 ? 它 说 明了 什么 ? 

. 可 拓 数 据 挖掘 的 定理 2 是 什么 ? 它 说 明了 什么 ? 

.形式 逻辑 的 假 言 推理 公式 是 什么 ? 

. 可 拓 推 理 的 公式 是 什么 ? 它 说 明了 什么 ? 

. 从 实例 1 中 得 到 的 可 拓 知 识 有 什么 用 ? 

. 从 实例 2 中 得 到 的 可 拓 知 识 有 什么 用 ? 

.从 实例 中 说 明 可 拓 数 据 挖掘 与 数据 挖掘 的 区 别 和 意义 。 
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高 等 院 校 信息 管理 与 信息 系统 专业 系列 教材 


书 名 

运筹 学 教程 

信息 系统 开发 方法 教程 (第 三 版 
信息 系统 开发 方法 教程 (第 三 版 ) 题 解 与 实验 指导 
计算 机 组 成 原理 教程 (第 4 版 ) 
计算 机 组 成 原理 教程 习题 解析 
离散 数学 (第 四 版 ) 

离散 数学 题解 (第 三 版 )( 与 (离散 数学 (第 四 版 )) 配 套 ) 
数据 结构 及 应 用 算法 教程 
数据 库 系 统 原理 教程 

电子 商务 概论 (第 3 版 ) 

社会 统计 分 析 及 SAS 应 用 教程 
信息 系统 开发 与 管理 教程 (第 二 版 ) 
管理 信息 系统 教程 (第 二 版 ) 

电子 商务 基础 教程 (第 二 版 ) 

信息 资源 管理 教程 
信息 经 济 学 教程 

数据 仓库 与 数据 挖掘 教程 

计算 机 网 络 教程 (第 二 版 ) 
计算 机 操作 系统 教程 

信息 系统 分 析 与 设计 

信息 系统 安全 教程 
信息 管理 学 教程 (第 3 版 ) 

运筹 学 模型 与 方法 教程 

运筹 学 模型 与 方法 教程 例题 分 析 与 题解 
决策 支持 系统 教程 

信息 管理 英语 教程 

Visual Basic 程序 开发 教程 

Visual Basic 程序 开发 例题 与 题解 
C++ 程序 开发 教程 

C++ 程序 开发 例题 与 习题 

Java 程序 开发 教程 

Java 程序 开发 例题 与 习题 
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读者 意见 反馈 


亲爱 的 读者 : 

感谢 您 一 直 以 来 对 清华 版 计算 机 教材 的 支持 和 爱护 。 为 了 今后 为 您 提供 更 优秀 的 教 
材 ， 请 您 抽出 宝贵 的 时 间 来 填写 下 面 的 意见 反馈 表 ， 以 便 我 们 更 好 地 对 本 教材 做 进一步 
改进 。 同 时 如 果 您 在 使 用 本 教材 的 过 程 中 遇 到 了 什么 问题 ， 或 者 有 什么 好 的 建议 ， 也 请 


您 来 信 告诉 我 们 。 
地 址 : 北京 市 海淀 区 双 清 路 学 研 大 厦 A 座 602 计算 机 与 信息 分 社 营销 室 收 
邮编 : 100084 电子 邮箱 : jsijc@tup.tsinghua.edu.cn 
电话 : 010-62770175-4608/4409 邮购 电话 : 010-62786544 


教材 名 称 : 算法 设计 与 分 析 
ISBN: 7-302-13154-6/TP * 8320 


年 龄 : 所 在 院 校 /专业 : 
: 通信 地 址 ; 
联系 电话 : 电子 信箱 : 
您 使 用 本 书 是 作为 : 口 指定 教材 口 选用 教材 口 辅导 教材 口 自学 教材 
您 对 本 书 封面 设计 的 满意 度 : 
] 很 满意 口 满意 口 一 般 口 不 满意 ”改进 建议 
您 对 本 书 印 刷 质量 的 满意 度 : 
] 很 满意 口 满意 口 一 般 口 不 满意 ”改进 建议 


您 对 本 书 的 总 体 满意 度 : 

从 语言 质量 角度 看 口 很 满意 口 满意 口 一 般 口 不 满意 
从 科技 含量 角度 看 口 很 满意 口 满意 口 一 般 口 不 满意 
本 书 最 令 您 满意 的 是 : 
] 指 导 明确 口内 容 充实 口 讲解 详尽 口 实例 丰富 
您 认为 本 书 在 哪些 地 方 应 进行 修改 ? 〈 可 附 页 ) 


您 希望 本 书 在 哪些 方面 进行 改进 ? (可 附 页 ) 


电子 教案 支持 


敬爱 的 教师 : 

为 了 配合 本 课程 的 教学 需要 ， 本 教材 配 有 配套 的 电子 教案 (素材 )， 有 需求 的 教师 可 以 
与 我 们 联系 , 我 们 将 向 使 用 本 教材 进行 教学 的 教师 免费 赠送 电子 教案 (素材 ), 希望 有 助 于 
教学 活动 的 开展 。 相 关 信 息 请 拨打 电话 010-62776969 或 发 送 电 子 邮 件 至 
jsjjc@tup.tsinghua.edu.cn 咨询 ， 也 可 以 到 清华 大 学 出 版 社 主页 (http:/wwwtup.comcn 或 
http:/wwwtuptsinghua.edu.cn) 上 查询 。 


